常见的损失函数

常见的损失函数
在深度学习中，损失函数扮演着至关重要的角色。通过对最小化损失函数，使模型达到收敛状态，减少模型预测值的误差。因此，不同的损失函数，对模型的影响是重大的。接下来，总结一下，在工作中经常用到的损失函数：
- 图像分类：交叉熵
- 目标检测：Focal loss，L1/L2损失函数，IOU Loss，GIOU ，DIOU，CIOU
- 图像识别：Triplet Loss，Center Loss，Sphereface，Cosface，Arcface
图像分类

交叉熵

在图像分类中，经常使用softmax+交叉熵作为损失函数，具体的推导可以参考我以前的博客。

$C r o s s E n t r o p y = - \sum_{i = 1}^{n} p (x_{i}) l n (q (x_{i}))$

其中，

后来，谷歌在交叉熵的基础上，提出了label smoothing（标签平滑），具体介绍，可以参考这篇博客。
在实际中，需要用预测概率去拟合真实概率，而拟合one-hot的真实概率函数会带来两个问题：
1. 无法保证模型的泛化能力，容易造成过拟合；
2. 全概率和0概率鼓励所属类别和其他类别之间的差距尽可能加大，而由梯度有界可知，这种情况很难adapt，会造成模型过于相信预测的类别。
因此，为了减少这种过于自信，同时减缓人为标注的误差带来的影响，需要对

$p^{'} (x) = (1 - ϵ) δ_{(k, y)} + ϵ u (k)$

其中，

$H (p^{'}, q) = - \sum_{i = 1}^{n} p^{'} (x_{i}) l n (q (x_{i})) = (1 - ϵ) H (p, q) + ϵ H (p, u)$
目标检测

最近，看到一篇很好的博文，是介绍目标检测中的损失函数的，可以参考一下：https://mp.weixin.qq.com/s/ZbryNlV3EnODofKs2d01RA

在目标检测中，损失函数一般由两部分组成，classification loss和bounding box regression loss。calssification loss的目的是使类别分类尽可能正确；bounding box regression loss的目的是使预测框尽可能与GT框匹对上。

Focal loss

该Focal loss损失函数出自于论文《Focal Loss for Dense Object Detection》，主要是解决正负样本之间的不平衡问题。通过降低easy example中的损失值，间接提高了hard example中损失值的权重。Focal loss是基于交叉熵进行改进的：

$F o c a l l o s s = - α_{t} (1 - p_{t})^{γ} l o g (p_{t})$

可以看到，在交叉熵前增加了

L1，L2，smooth L1损失函数

利用L1,L2或者smooth L1损失函数，来对4个坐标值进行回归。smooth L1损失函数是在Fast R-CNN中提出的。三个损失函数，如下所示：

$L 1 = | x |$

$L 2 = x^{2}$

$s m o o t h L 1 = {\begin{matrix} 0.5 x^{2} i f | x | < 1 \\ | x | - 0.5 o t h e r w i s e \end{matrix}$

从损失函数对x的导数可知：

在一般的目标检测中，通常是计算4个坐标值与GT框之间的差异，然后将这4个loss进行相加，构成regression loss。

但使用上述的3个损失函数，会存在以下的不足：
- 上面的三种Loss用于计算目标检测的Bounding Box Loss时，独立的求出4个点的Loss，然后进行相加得到最终的Bounding Box Loss，这种做法的假设是4个点是相互独立的，实际是有一定相关性的；
- 实际评价框检测的指标是使用IOU，这两者是不等价的，多个检测框可能有相同大小的Loss，但IOU可能差异很大，为了解决这个问题就引入了IOU LOSS
IOU Loss

该IOU Loss是旷视在2016年提出的《UnitBox: An Advanced Object Detection Network》。该论文的主要观点之一是：
- 使用基于欧式距离的L-n损失函数，其前提是假设4个坐标变量都是独立的，但实际上，这些坐标变量是具有一定的关联性。
- 评价指标使用了IOU，而回归坐标框又使用4个坐标变量，这两者是不等价的。
- 具有相同的欧式距离的框，其IOU值却不是唯一的。
所以，提出了IOU loss，直接使用IOU作为损失函数：

$L o s s_{I O U} = - l n (I O U)$

同时，也会有人使用的是：

$L o s s_{I O U} = 1 - I O U$

GIOU

该GIOU Loss损失函数是斯坦福于2019年提出的《Generalized Intersection over Union: A Metric and A Loss for Bounding Box Regression》。在上面的IOU Loss中，无法对两个不重叠的框进行优化，而且IOU Loss无法反映出两个框到底距离有多远。为了解决这个问题，作者提了GIOU来作为损失函数：

$G I O U = I O U - \frac{C - (A ⋃ B)}{C}$

其中，

GIOU具有以下的性质：
- GIOU可以作为一种衡量距离的方式，
- GIOU具有尺度不变性
- GIOU是IOU的下限，
- 当矩形框A、B重叠时，
- 当矩形框A、B不相交时，
总的来说，GIOU包含了IOU所有的优点，同时克服了IOU的不足。

DIOU和CIOU

DIOU和CIOU是天津大学于2019年提出的《Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression》。为了解决GIOU收敛慢和提高回归精度，提出DIOU来加速收敛。同时考虑到框回归的3个几何因素（重叠区域，中心点距离，宽高比），基于DIOU，再次提出CIOU，进一步提高收敛速度和回归精度。另外，可以将DIOU结合NMS组成DIOU-NMS，来对预测框进行后处理。

当出现下图的情况（GT框完全包含预测框）时，IOU与GIOU的值相同，此时GIOU会退化成IOU，无法区分其相对位置关系。同时由于严重依赖于IOU项，GIOU会致使收敛慢。

基于上述问题，作者提出两个问题
1. 直接最小化预测框与目标框之间的归一化距离是否可行，以达到更快的收敛速度。
2. 如何使回归在与目标框有重叠甚至包含时更准确、更快
好的目标框回归损失应该考虑三个重要的几何因素：重叠面积，中心点距离，长宽比。基于问题一，作者提出了DIoU Loss，相对于GIoU Loss收敛速度更快，该Loss考虑了重叠面积和中心点距离，但没有考虑到长宽比；针对问题二，作者提出了CIoU Loss，其收敛的精度更高，以上三个因素都考虑到了。
首先，定义一下基于IOU Loss的损失函数：

$L o s s = 1 - I O U + R (B, B^{g t})$

其中，

而在DIOU中，该惩罚项

因此，

$L o s s_{G I O U} = 1 - I O U + \frac{ρ^{2} (b, b^{g t})}{c^{2}}$

所以，
1. DIOU依然具有尺度不变性；
2. DIOU直接最小化两个框的距离，因此收敛会更快；
3. 对于目标框包裹预测框的这种情况，DIoU Loss可以收敛的很快，而GIoU Loss此时退化为IoU Loss收敛速度较慢
DIOU同时考虑了重叠面积和中心点之间的距离，但是没有考虑到宽高比。进一步提出了CIOU，同时考虑了这3个因素，在DIOU的惩罚项中加入了

$R (B, B^{g t}) = R_{C I O U} = \frac{ρ^{2} (b, b^{g t})}{c^{2}} + α υ$

其中，

$υ = \frac{4}{π^{2}} {(a r c t a n \frac{w^{g t}}{h^{g t}} - a r c t a n \frac{w}{h})}^{2}$

$α = \frac{υ}{(1 - I O U) + υ}$

这里的

所以，CIOU的损失函数为：

$L o s s_{C I O U} = 1 - I O U + \frac{ρ^{2} (b, b^{g t})}{c^{2}} + α υ$

而在实际操作中，

另外，提醒一点的是，GIOU、CIOU、DIOU都是衡量方式，在使用时可以代替IOU。但是这里需要考虑的一个问题是，预测框与GT框的匹配规则问题。并不是说anchor一定会去匹配一个不重叠的GT框。类似于SSD中所说，anchor会选择一个重叠最大的GT框进行预测，而这个重叠最大可以使用IOU、GIOU、CIOU、DIOU来进行衡量。

图像识别

图像识别问题，包含了行人重识别，人脸识别等问题。此类损失都是通用的，因此放在一起汇总。同样，也看到一篇很好的博客介绍了大量人脸识别的损失函数：https://mp.weixin.qq.com/s/wJ-JNsUv60vXtGIV-mDrTA

Triplet Loss

该Triplet Loss损失函数提出于2015年的《FaceNet: A Unified Embedding for Face Recognition and Clustering》。该损失函数的主要想法是，拉近同一id之间的距离，扩大不同id之间的距离。如下图所示，图中的anchor与positive属于同一id，即

使用数学公式进行表达，triplet loss想达到的效果是：

$d (x_{i}^{a}, x_{i}^{p}) + α \leq d (x_{i}^{a}, x_{i}^{n})$

其中，

$t r i p l e t l o s s = [d (x_{i}^{a}, x_{i}^{p}) - d (x_{i}^{a}, x_{i}^{n}) + α]_{+}$

在实际中，通常使用在线训练方式，选择P的不同的id，每个id包含K张图片，形成了

Center Loss

该Center Loss损失函数提出于《A Discriminative Feature Learning Approach for Deep Face Recognition》。为了提高特征的区分能力，作者提出了center loss损失函数，不仅能缩小类内差异，而且能扩大类间差异。

作者首先在MNIST数据集上进行试验，将隐藏层的最后输出维度改为2，使用softmax+交叉熵作为损失函数，将其结果可视化出来，如下图所示。可以看出，交叉熵可以使每一类分开，数据分布呈射线形，但却不够区分性，即类内差异大。

因此，作者想要在保持数据的可分性前提下，进一步缩小类内之间的差异。为了达到这个目的，提出了center loss损失函数：

$L_{C} = \frac{1}{2} \sum_{i = 1}^{m} {‖ x_{i} - c_{y_{i}} ‖}_{2}^{2}$

其中，

$L = L_{S} + λ L_{C} = - \sum_{i = 1}^{m} l o g \frac{e^{W_{y_{i}}^{T} x_{i} + b_{y_{i}}}}{\sum_{j = 1}^{n} e^{W_{j}^{T} x_{j} + b_{y_{i}}}} + \frac{λ}{2} \sum_{i = 1}^{m} {‖ x_{i} - c_{y_{i}} ‖}_{2}^{2}$

其中，

在使用Center Loss损失函数时，需要引入两个超参：

$c_{j}^{t + 1} = c_{j}^{t} - α Δ c_{j}^{t}$

Sphereface

该Sphereface提出于《SphereFace: Deep Hypersphere Embedding for Face Recognition》，其也称A-Softmax损失函数。作者认为，triplet loss需要精心构建三元组，不够灵活；center loss损失函数只是强调了类内的聚合度，对类间的可分性不够重视。因此，作者提出了疑问：基于欧式距离的损失函数是否适合模型学习到具有区分性的特征呢？

首先，重新看一下softmax loss损失函数（即softmax+交叉熵）：

$L o s s_{i} = - l o g (\frac{e^{W_{y_{i}}^{T} x_{i} + b_{y_{i}}}}{\sum_{j} e^{W_{j}^{T} x_{i} + b_{j}}}) = - l o g (\frac{e^{| | W_{y_{i}} | | | | x_{i} | | c o s (θ_{y_{i}, i}) + b_{y_{i}}}}{\sum_{j} e^{| | W_{j} | | | | x_{i} | | c o s (θ_{j, i}) + b_{j}}})$

其中，

$L_{m o d i f i e d - s o f t m a x} = - l o g (\frac{e^{| | x_{i} | | c o s (θ_{y_{i}, i})}}{\sum_{j} e^{| | x_{i} | | c o s (θ_{j, i})}})$

虽然使用modified-softmax损失函数可以学习到特征具有角度区分性，但这个区分力度仍然不够大。因此，在

$L_{a n g} = - l o g (\frac{e^{| | x_{i} | | c o s (m θ_{y_{i}, i})}}{e^{| | x_{i} | | c o s (m θ_{j, i})} + \sum_{j \neq y_{i}} e^{| | x_{i} | | c o s (θ_{j, i})}})$

这样，能扩大类间距离，缩小类内距离。

下图是论文的实验结果，从超球面的角度进行解释，不同的m值的结果。其中，不同颜色的点表示不同的类别。可以看出，使用A-Softmax损失函数，会将学习到的向量特征映射到超球面上，

最后，给出该损失函数的实现方式，请参考这篇博客。

Cosface

该Cosface损失函数是由腾讯在2018年《CosFace: Large Margin Cosine Loss for Deep Face Recognition》中提出的。Cosface损失函数，也称Large Margin Cosine Loss(LMCL)。从名字可以看出，通过对cos的间隔最大化，来实现扩大类间距离，缩小类内距离。

从softmax出发（与Sphereface类似），作者发现，为了实现有效的特征学习，

$L_{n s} = \frac{1}{N} \sum_{i} - l o g \frac{e^{s c o s (θ_{y_{i}, i})}}{\sum_{j} e^{s c o s (θ_{j, i})}}$

其中ns表示归一化版本的softmax loss，

$L_{l m c} = \frac{1}{N} \sum_{i} - l o g \frac{e^{s (c o s (θ_{y_{i}, i}) - m)}}{e^{s (c o s (θ_{y_{i}, i}) - m)} + \sum_{j \neq y_{i}} e^{s c o s (θ_{j, i})}}$

其中，

下图是作者的解释图。第一个表示正常的sotfmax loss，可以看出两个类别的分类边界具有重叠性，即区分性不强；第二个表示归一化版本的softmax loss，此时边界已经很明显，相互没有重叠，但是区分性不足；第三个表示A-softmax，此时横纵坐标变成了

Arcface

该Arcface损失函数提出于《ArcFace: Additive Angular Margin Loss for Deep Face Recognition》。类似于Sphereface和Cosface，Arcface同样需要令

$L_{a r c f a c e} = \frac{1}{N} \sum_{i} - l o g \frac{e^{s (c o s (θ_{y_{i}, i} + m))}}{e^{s (c o s (θ_{y_{i}, i} + m))} + \sum_{j \neq y_{i}} e^{s c o s (θ_{j, i})}}$

下图是Arcface的计算流程图，首先对

通过对Sphereface、Cosface和Arcface进行整合，得到了统一的形式：

$L = \frac{1}{N} \sum_{i} - l o g \frac{e^{s (c o s (m_{1} θ_{y_{i}, i} + m_{2}) - m_{3})}}{e^{s (c o s (m_{1} θ_{y_{i}, i} + m_{2}) - m_{3})} + \sum_{j \neq y_{i}} e^{s c o s (θ_{j, i})}}$

此时，就可以对该损失函数进行魔改了，作者实验得到，对于部分数据集，
相关阅读:
如何掌握所有的程序语言
 程序与证明
 卫星通信地面系统构成
 SCIP 环境搭建
 Homebrew install.sh
macOS 内核之从 I/O Kit 电量管理开始
 matlab练习程序（空间椭圆拟合）
多进程抢票加锁
 进程间数据传递
 队列用法
原文地址：https://www.cnblogs.com/darcy/p/15897663.html

常见的损失函数

图像分类

交叉熵

目标检测

Focal loss

L1，L2，smooth L1损失函数

IOU Loss

GIOU

DIOU和CIOU

图像识别

Triplet Loss

Center Loss

Sphereface

Cosface

Arcface