paper 111：图像分类物体目标检测 from RCNN to YOLO

paper 111：图像分类物体目标检测 from RCNN to YOLO
参考列表

Selective Search for Object Recognition
Selective Search for Object Recognition(菜菜鸟小Q的专栏)
Selective Search for Object Recognition(Surge)
Selective Search for Object Recognition(原始论文)
Efficient Graph-Based Image Segmentation(快速图像分割)
Homepage of Koen van de Sande

非极大值抑制（Non-maximum suppression）在物体检测领域的应用
 Efficient Non Maximum Suppression 笔记（不完整版）

如何评价rcnn、fast-rcnn和faster-rcnn这一系列方法？
RCNN的安装与简单使用

Ross B. Girshick(RCNN系列开创者)
rbg’s home page

RCNN
Rich feature hierarchies for accurate object detection and semantic segmentation
https://github.com/rbgirshick/rcnn

Fast RCNN
Fast R-CNN
https://github.com/rbgirshick/fast-rcnn

Faster RCNN
Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
https://github.com/rbgirshick/py-faster-rcnn
https://github.com/ShaoqingRen/faster_rcnn

You Only Look Once
You Only Look Once: Unified, Real-Time Object Detection
YOLO Object Detection(视频)

RCNN

最早的物体识别，是通过窗口扫描的方式进行，并且需要对图片进行几个级别的缩放来重复进行。
这种方式非常暴力，计算量大。
RCNN主要解决的是去掉窗口扫描，用聚类方式，对图像进行分割分组，得到多个侯选框的层次组。
分割分组方法有很多，RCNN用到的是Selective Search。

以下就是RCNN的结构。
- 从原始图片，通过Selective Search提取出区域候选框，有2000个左右
- 把所有侯选框缩放成固定大小
- 然后通过CNN网络，提取特征
- 再添加两个全链接层，然后再用SVM分类，回归来微调选框位置与大小
Fast RCNN

RCNN有两千个左右的候选框，都要进行CNN操作。但候选框有大量重叠，造成重复计算。
Fast RCNN就是解决这个问题的。
- 利用CNN(卷积神经网络)，得到整个原始图片的特征层
- 在原始图片上通过Selective Search等方法，提取出域候选框
- 把候选框投影到最后的特征层，并进行Max-Pooling采样，得到固定大小的特征矩形
- 然后再通过两个全连接层，分别用softmax分类，regressor进行选框位置与大小微调
Faster RCNN

在上面的 RCNN 与 Fast RCNN中，相对于在GPU上计算的CNN，在CPU上运行的提取候选框效率低下，一张图片大概需要2秒。
Faster RCNN则直接利用CNN来计算候选框，方式如下:
- 原始图片经过CNN，得到最后的卷积特征
- 利用
- 对上图中的k个anchor box进行是否是物体判断预测，和矩形框位置与大小微调
- 选出物体框后，再利用同Fast RCNN同样的方式，对物体类别进行判断
- 选框与分类使用同样的CNN网络
一张

注
这里有一点疑惑，

You Only Look Once

Faster RCNN需要对20k个anchor box进行判断是否是物体，然后再进行物体识别，分成了两步。
YOLO(You Only Look Once)则把物体框的选择与识别进行了结合，一步输出，即变成”You Only Look Once”。
所以识别速度非常快，达到每秒45帧，而在快速版YOLO(Fast YOLO，卷积层更少)中，可以达到每秒155帧。
网络的整体结构如下图:
- 把原始图片缩放成
- 运行单个卷积网络
- 得到物体的位置与类别
模型如下:
- 把缩放成统一大小的图片分割成
- 每一个单元格负责输出B个矩形框，每一个框带四个位置信息(x, y, w, h)，与一个该框是物体的概率，用
- 每一个单元格再负责输出C个类别的概率，用
- 最终输出层应有
相关说明:
- 如果一个物体的中心落入一个单元格，则该单元格上的B个矩形框的位置信息都为该物体的位置信息，
- C个概率中对应该物体类别值为1，其它为0。
- x, y表示中心相对于单元格左上角的位置偏移，单元格左上角为(0, 0)，右下角为(1, 1)
- w, h表示矩形框的宽与高，都是相对于整个图片的相对值，全副图片大小为(1, 1)，长宽都一半就是(0.5, 0.5)
最终输出时，是物体的概率乘以类别概率，才是整体识别到是一个物体的概率:

Pr(class)=Pr(Class∣Object)∗Pr(Object)

在论文You Only Look Once: Unified, Real-Time Object Detection中，S = 7，B = 2，C = 20。
所以输出的单元数为

具体的网络结构如下:

从上图的结构可以看到，倒数第二层是一个全连接层，所以最终的单元输出整合了全局信息，更好地预测图像区域。

训练

整个网络最后一层为线性激活，其它层都为Leaky Rectified Linear激活方式:

ϕ(x)={x,0.1x,if x > 0otherwise

因为一张图片中，大部分单元格中都没有落入物体中心，所以引入两个参数

J=λcoord∑i=0S2∑j=0B1objij(xi−x^i)2+(yi−y^i)2+λcoord∑i=0S2∑j=0B1objij(wi−−√−w^i−−√)2+(hi−−√−h^i−−√)2+∑i=0S2∑j=0B1objij(Ci−C^i)2+λnoobj∑i=0S2∑j=0B1noobjij(Ci−C^i)2+∑i=0S21objij∑c∈classes(pi(c)−p^i(c))2

因为物体有大有小，如果用差平方来做代价，则造成对大物体位置更好的优化，才发现小物体位置更差的优化，所以上面改成用开方后再做差平方。
我认为用以下方式可能更好:

(wi−w^iw^i)2+(hi−h^ih^i)2

什么时候跑了实验，有了结果再来确认。

YOLO的局限性
- 最终有一个全连接层，所以各单元格能够利用全局信息，但是造成初始图片只能缩放成固定大小
- 初始图片有缩放，则可能对不同缩放比的物体覆盖不全，造成无法识别极端缩放比的物体
- 每一个单元格只选择一个物体框来用，并只预测一个类别，所以当多个物体中心落入一个单元格时，YOLO无能为力，表现成不能识别到小物体
NMS

通过上面的RCNN, Fast RCNN, Faster RCNN 或 YOLO 方法，图片中的同一个物体，可能识别出来多个选框。
这时需要进行选优，去掉重复的框。
非极大值抑制(Non-maximum suppression，NMS)就是拿来干这个的。

如上图所示，一共有6个识别为人的框，每一个框有一个置信率。
现在需要消除多余的:
- 按置信率排序: 0.95, 0.9, 0.9, 0.8, 0.7, 0.7
- 取最大0.95的框为一个物体框
- 剩余5个框中，去掉与0.95框重叠率大于0.6(可以另行设置)，则保留0.9, 0.8, 0.7三个框
- 重复上面的步骤，直到没有框了，0.9为一个框
- 选出来的为: 0.95, 0.9
两个矩形的重叠率计算方式如下:

如图，矩形的左上角坐标为x1, y1, 右下角坐标为x2, y2，两个矩形的面积分别为A, B。
- 取两个矩形左上角坐标的最大值x1_max, y1_max
- 取两个矩形右下角坐标的最小值x2_min, y2_min
- 重叠区域的宽w为max(0, x2_min - x1_max)，高h为max(0, y2_min - y1_max)
- 重叠率为
如下的两个矩形，重叠率为0:
相关阅读:
结对-五子棋-测试过程
 结队-五子棋游戏-项目进度
 团队-象棋游戏-代码设计规范
 团队-象棋游戏-开发环境搭建过程
 课后作业-阅读任务-阅读提问-1
20170914-构建之法：现代软件工程-阅读笔记
 结对-五子棋游戏-开发环境搭建过程
 团队-象棋-成员简介及分工
 结对-五子棋-需求分析
 个人-GIT使用方法
原文地址：https://www.cnblogs.com/molakejin/p/5812958.html

paper 111：图像分类物体目标检测 from RCNN to YOLO

参考列表

RCNN

Fast RCNN

Faster RCNN

You Only Look Once

NMS