• 目标检测——边框回归(Bounding Box Regression)详解


    Bounding-Box regression

      最近一直看检测有关的paper,从rcnn,fast rcnn, faster rcnn, yolo, r-fcn, ssd,到今年cvpr最新的yolo9000.这些paper中损失函数都包含了边框回归,除了rcnn详细介绍了,其他的paper都是一笔带过,或者直接引用rcnn就把损失函数写出来了。前三条网上解释的比较多,后面的两条我看了很多paper,才得出这些结论。

    • 为什么要边框回归?
    • 什么是边框回归?
    • 边框回归怎么做的?
    • 边框回归为什么宽高,坐标会设计这种形式?
    • 为什么边框回归只能微调,在离Ground Truth近的时候才能生效?

    为什么要边框回归?

      这里引用王斌师兄的理解,如下图所示:

       对于上图,绿色的框代表Ground Truth,红色的框为Selective Search提取的Region Proposal。那么即便红色的框被分类器识别为飞机,但是由于红色的框定位不准(IoU<0.5),那么这张图相当于没有正确的检测出飞机。如果我们能对红色的框进行微调,使得经过微调后的窗口跟Ground Truth更接近,这样岂不是定位会更准确。确实,Bounding-Box regression就是用来微调这个窗口的。

    边框回归是什么?

      继续接用师兄的理解:对于窗口一般使用四维向量$(x, y, w, h)$来表示,分别表示窗口的中心点坐标和宽高。对于图2,红色的框P代表原始的Proposal,绿色的框G代表目标的Ground Truth,我们的目标是寻找一种关系使得输入原始的窗口P经过映射得到一个跟真实窗口G更接近的回归窗口$hat{G}$

      边框回归的目的即是:给定$(P_x, P_y, P_w, P_h)$寻找一种映射$f$,使得$f(P_x, P_y, P_w, P_h) = (hat{G}_x, hat{G}_y, hat{G}_w, hat{G}_h)$并且$(hat{G}_x, hat{G}_y, hat{G}_w, hat{G}_h) approx (G_x, G_y, G_w, G_h)$

    边框回归怎么做的?

    为什么宽高尺度会设计这种形式?

      这边我重点解释以下为什么设计的$t_x, t_y$为什么除以宽高,为什么$t_w, t_h$会有log形式!!!

      首先CNN具有尺度不变性,以图3为例

     转自:https://blog.csdn.net/zijin0802034/article/details/77685438

  • 相关阅读:
    cmake问题解决汇总
    windows系统安装tree命令
    gcc请求或抑制警告的选项
    React训练营:GraphQL 与CRUD的故事
    React训练营:基本元素的使用与状态管理
    React训练营:Advanced React Hooks:useContext与useReducer
    数据库上云实践:使用Ora2pg进行数据库迁移
    算法训练营:滑动窗口的解释与构造
    数据库进阶之路:常见例题
    ERROR: Could not determine java version from 'JavaVersion.VERSION_1_8'.
  • 原文地址:https://www.cnblogs.com/boligongzhu/p/15066380.html
Copyright © 2020-2023  润新知