• 目标检测框回归问题


    本文转自知乎,作者mileistone,已获作者授权转载,请勿二次转载。

    https://zhuanlan.zhihu.com/p/330613654

    目标检测模型训练的时候有两个任务,框分类(框里是什么)和框回归(框在哪),本文主要讲第二点。

    框回归可以分为两大类,基于x,y,w,h的回归(比如Faster R-CNN、YOLO、RetinaNet里框回归的loss),基于IoU的回归(比如IoU loss、GIoU loss、DIoU loss、CIoU loss)。

    基于x,y,w,h的回归

    基于x,y,w,h的回归,可以细分为x、y(GT框的中心)的回归和w、h的回归。

    w、h的回归

    Faster R-CNN、YOLO、RetinaNet的w、h回归方式大体相同。假设 、  为拟合目标,  、  为网络预测值,  为GT框的宽,  为样本对应anchor框的宽,  为GT框的宽,  为GT框对应的anchor框的高,  为  、  、  等。




    其中通过anchor的归一化和取log,可以一定程度增加  和  对框scale的invariance。

    x、y的回归

    x、y的回归方式可以分为两类,一类以YOLO为代表,一类以Faster R-CNN和RetinaNet为代表。后者x、y的回归方式与它们对w、h的回归方式相同,不再赘述。

    YOLO中x、y的回归方式比较奇特。假设  、  为拟合目标,  、  为网络预测值,  为对应head输出feature map的宽,  为对应head输出feature map的高。

     为GT框中心的x坐标,  为GT框中心的y坐标,  为GT框匹配上的grid cell的x坐标,  为GT框匹配上的grid cell的y坐标,x坐标的范围缩放到化到  ,y坐标的范围缩放到到  。




    对scale进行reweight

    关于x、y、w、h的回归,YOLO还会对不同scale的框回归loss进行reweight,减小大scale的框回归loss,增大小scale的框回归loss,Fatser R-CNN和RetinaNet没这么做。总体而言,YOLO里很多操作都是比较特立独行的,不过在论文里讲得很少,只有看作者的C代码实现才能发现。

    基于IoU的回归

    IoU loss有两个所谓的优点,一个是“Given the choice between optimizing a metric itself vs. a surrogate loss function, the optimal choice is the metric itself”,另一个是IoU loss对框的scale具有invariance特性,大家觉得这个对于框回归而言非常必要。

    IoU loss关注预测框与GT框的IoU,而其他基于IoU loss的变体,关注的点除了IoU 之外还有:

    1、预测框与GT框并集占据预测框与GT框最小包络框的比例(越大越好);

    2、归一化(以预测框和GT框最小包络框的对角线为分母)的预测框中心与GT框中心距离(越小越好);

    3、预测框长宽比与GT框长宽比的相似程度(越大越好)。

    GIoU loss关注了1,DIoU loss关注了2,CIoU loss关注了2和3。

    GIoU loss缓解了IoU loss在预测框和GT框之间IoU为0,梯度为0的问题。实验中GIoU收敛比较慢,DIoU缓解了GIoU这个问题;CIoU基于DIoU,添加了一个关于长宽比的惩罚项。

    一些想法

    1、the optimal choice is the metric itself?

    将IoU作为loss是不是真的如论文中所说“Given the choice between optimizing a metric itself vs. a surrogate loss function, the optimal choice is the metric itself”。

    这句话很对,但是IoU只是整体metric(比如mAP)中的一部分,这一个部分达成了“optimizing a metric itself”,问题是局部最优不一定能达到全局最优,这个问题导致IoU loss提出来之后,后续大家打了一个接一个的补丁(比如GIoU、DIoU、CIoU),甚至PP-YOLO发现把基于x、y、w、h的回归和基于IoU的回归结合起来效果更好。

    事情并不如IoU提出来的时候想的那么美好。

    相信后面还会有更多的补丁。一个问题在于无论是IoU也好,还是后面提出来的其他惩罚项也好,既缓解了一部分问题,也带来了新的问题;另一个问题是,整体地“optimizing a metric itself”这个命题听起来很美好,但是基本不可实现:想象很美好,现实很骨感。

    后面我们大概率会从不同角度提出更多的惩罚项,这里会带来一个问题,当惩罚项越来越多的时候,如何平衡各个惩罚项loss,进而如何平衡框回归与框分类loss,里面会涉及到很多超参。

    2、对框scale的invariance特性

    框回归问题中,对框scale具有invariance是否一定是优点呢?我想不尽然,因为不同scale的框之间可能存在不平衡,在这种条件下,对框scale具有invariance可能不一定是最好的,我们可能需要做一些reweight。

    3、anchor free

    这里我们没提到anchor free的目标检测框回归计算方式,但是思路是类似的,基于上述的思路,可以很自然地想到anchor free目标检测器里框回归会如何设计。

  • 相关阅读:
    mysql binlog日志
    安装源码包(这里主要写了redis,其他都一样的操作)
    hashMap异常:java.util.ConcurrentModificationException
    谷歌post url “net::ERR_INCOMPLETE_CHUNKED_ENCODING”
    itextpdf结合jfinal模版生成pdf文件
    springboot项目jar冲突问题解决
    map遍历
    el和jstl表达式问题==0的问题
    fastJSON 解析转换包含下划线属性的问题
    CentOS 7 64位
  • 原文地址:https://www.cnblogs.com/shuimuqingyang/p/14095545.html
Copyright © 2020-2023  润新知