6.1 常用的损失函数（18种）

Z时代
2024-01-10
分类：技术分享

0 损失函数的概念

损失函数是用来衡量模型输出与真实标签的差异。

比如下面的一元线性回归的实验：

绿色的点是样本。蓝色的直线是训练好的一个模型。

我们可以看到这个模型并没有很好的拟合到每一个数据点。所以数据点会产生一个loss。红色的线段就是模型之间的差距。

损失函数、代价函数和目标函数有什么区别？

损失函数是计算一个样本的差异。

代价函数是计算整个样本集的loss的平均值。

目标函数是更广泛的概念。目标通常包含cost 和正则化项。cost就是代价函数，是衡量模型输出与真实标签的差异。但是是不是代价函数越小越好呢？其实不一定，因为有时候会过拟合。

比如，训练了下面的模型：

可以看到这条曲线可以很好的拟合每一个数据点，所以它的cost是0。但是这个模型是不是好的模型呢？显然不是，这就是由于模型太复杂导致过拟合。所以在追求cost比较小的时候，同时也要对这个模型做一些限制，约束。在机器学习中，这些约束项就成为正则项。通常采用L1、L2、系数约束等。

在后面，不失一般性，后面都会用Loss function来统称。

看一下pytorch中的loss。

下面

pytorch中的loss还是继承于Module。所以说Loss还是相当于网络层。

共有三个参数，其中前两个即将（已经）被舍弃了，以后不要用了。因为它的功能在reduction中完全可以实现。

下面看一下RMB分类中使用过的交叉熵损失函数，它是怎么创建的，以及怎么使用的。

~~~

接来来介绍一下的损失函数。

1 nn.CrossEntropyLoss 交叉熵损失函数

它的功能是将nn.LogSoftmax()于nn.NLLLoss()结合，进行交叉熵计算。需要注意的是，他并不是公式意义上的交叉熵函数，而是有一些不同之处。不同之处在用使用softmax()对数据进行了一个归一化，把数据值归一化概率值。这是因为交叉熵损失函数常常用于分类任务当中，而分类任务通常是需要计算两个输出的概率值。

交叉熵，信息熵，相对熵之间的关系：

熵，准确来说叫做信息熵，它是由信息论之父香农，从热力学的概念借鉴而来的一个名词。是用来描述一个事件的不确定性。一个事件越不确定，他的熵越大。熵的计算公式如下：

熵是自信息的期望。那什么是自信息呢？自信息是用于衡量单个输出、单个事件的不确定性。公式如下：

p(x)是事件x的概率。例如明天下雨的概率是0.3，那明天下雨的自信息就是-log(0.3)。而熵是整个概率分布的不确定性。

为了更好的理解熵的大小的关于事件不确定性的关系，我们来看示意图：

这是一个伯努利分布（两点分布）的一个信息熵。可以看到，当事件的概率是0.5的时候，它的信息熵最大。也就是概率是0.5的时候，不确定性最大。

下面来看相对熵，又叫KL散度。它是用来衡量两个分布之间的差异。但是注意，它并不是一个距离，因为它不具有对称性。

P是真实的分布，也就是训练集中样本的分布。而Q是模型输出的分布。

最后，我们来看交叉熵的公式：

三者关系：

因此：相对熵 = 交叉熵 - 信息熵。

刚才说了，P是真实的分布，也就是训练集中样本的分布。而Q是模型输出的分布。

所以在机器学习模型中，最小化交叉熵等价于优化相对熵。为什么呢？由于训练集是固定的，所以H(P)是一个常数。

下面开始学习这个函数。

在没有权值的时候，计算公式是：

x是输出的概率值，class是类别值。

weight：为各个类别的loss设置权值。

ignore index:指示某个类别不计算loss.

reduction:计算模式。

size_average\reduce:不用了。

例1：

结果：

可以看到逐个计算交叉熵损失为：1.3133， 0.1269， 0.1269.

求和为：1.5671

平均为：0.5224

我们用手工算一下试试：

结果：

可以看到，结果一样。

可以验证我们的公式是正确的。

例2：weight参数

结果：

129 129" width="721" height="128" src="/wp-content/uploads/2020/10/7654068af861e1b68fc29b50e7975a64.png">

上面不加权值的结果为：

可以看到，第二类的权值为2。因此第二类的都乘以了2。0.3642是加权平均。

手工计算：

结果：

2 nn.NLLLoss

只是执行了符号的功能。不要被他的名字欺骗了。输出就是-x.

例：

结果：

为什么会得到-1,-3,-3呢。第一个样本是第0类，所以只对第1个神经元进行计算，对1取符号，得到-1。

第二个样本是第1类，所以只对第2个神经元进行计算，对3取负号，得到-3。

第三个样本是第1类，所以只对第2个神经元进行计算，对3取负号，得到-3。

3 nn.BCELoss

是交叉熵损失函数的一个特例，是二分类的交叉熵损失函数。

4 nn.BCEWithLogitsLoss

5 nn.L1Loss

6 nn.MSELoss

7 nn.SmoothL1Loss

8 nn.PoissionNLLLoss

9 nn.KLDivLoss

10

以上是 6.1 常用的损失函数（18种）的全部内容，来源链接： utcz.com/a/53086.html

回到顶部