吴恩达深度学习笔记 course4 week3 目标检测

1.Objection localization

图片检测问题分为:

1.图片分类:是否为汽车(结果只为单个对象)

2.分类与定位:是否为汽车 ,汽车位置(结果只为单个对象)

3.目标检测: 检测不同物体并定位(结果可能含多个对象)

分类与定位的表示:

分类与定位的输出层可用如下表示:

1.Pc 是否存在

2.bx 目标中心的坐标 x

3.by 目标中心的坐标 y

4.bH 目标高度

5.bW 目标宽度

6.C1 是否为分类1

7.C2 是否为分类2

8.C3 是否为分类3

模型训练时，bx、by、bh、bw都由人为确定其数值。

损失函数:

Pc=1，即 $y_{1} = 1$

　　　　　　 $L (\hat{y}, y) = ({\hat{y}}_{1} - y_{1})^{2} + ({\hat{y}}_{2} - y_{2})^{2} + \dots + ({\hat{y}}_{8} - y_{8})^{2}$

Pc=0，即 $y_{1} = 0$

$y_{1} = 0$

当然在实际的目标定位应用中，我们可以使用更好的方式是：

对 $c_{1}$
对边界框的四个值应用平方误差或者类似的方法；
对 $P_{c}$

$P_{c}$

2.Landmark detection

除上述的矩形检测外,还可以对目标的关键点特征进行一个检测

其输出为:

1.Pc

2.l1_x,l1_y (记录关键点点特征的位置)

3.l2_x,l2_y

..........

我们通过标定训练数据集中特征点的位置信息，来对人脸进行不同位置不同特征的定位和标记。AR的应用就是基于人脸表情识别来设计的，如脸部扭曲、增加头部配饰等。

在人体姿态检测中，同样可以通过对人体不同的特征位置关键点的标注，来记录人体的姿态。

3.Objection detection

目标检测的一种简单算法是滑动窗口检测

首先:搜集一些目标图片和非目标图片作为训练集的样本进行训练得到一个CNN模型如下图:

注意:训练集图片尺寸较小，尽量仅包含相应目标

然后从测试图片选择合适的窗口,进行从左到右,从上到下的滑动,对每一个窗口使用已经训练好的CNN模型,观察是否有该目标.

若判断有目标，则此窗口即为目标区域；若判断没有目标，则此窗口为非目标区域。

优点:原理简单，且不需要人为选定目标区域（检测出目标的滑动窗即为目标区域）。

缺点:滑动窗口的大小,步长过大选取都会影响到目标检测到的成功率. 由于会对每个选取的窗口进行CNN网络计算,如果步长小,则会造成计算量大,性能低下.

总而言之,滑动窗口算法不够快,不够灵活

4.Convolutional implentation of sliding windows

卷积实现滑动窗口

将全连接层转为卷积层:

在上一周课程中，Ng讲授过 $1 \times 1$

$1 \times 1$

我们以训练好的模型，输入一个16x16x3大小的整幅图片，图中蓝色部分代表滑动窗口的大小。我们以2为大小的步幅滑动窗口，分别与卷积核进行卷积运算，最后得到4幅10×10×16大小的特征图，然而因为在滑动窗口的操作时，输入部分有大量的重叠，也就是有很多重复的运算，导致在下一层中的特征图值也存在大量的重叠，所以最后得到的第二层激活值（特征图）构成一副12×12×16大小的特征图。对于后面的池化层和全连接层也是同样的过程。

那么由此可知，滑动窗口在整幅图片上进行滑动卷积的操作过程，就等同于在该图片上直接进行卷积运算的过程。所以卷积层实现滑动窗口的这个过程，我们不需要把输入图片分割成四个子集分别执行前向传播，而是把他们作为一张图片输入到卷积神经网络中进行计算，其中的重叠部分（公共区域）可以共享大量的计算.

值得一提的是，窗口步进长度与选择的MAX POOL大小有关。如果需要步进长度为4，只需设置MAX POOL为4 x 4即可。