Deformable ConvNet V2

Deformable ConvNet V2
Deformable ConvNet V2(论文解析)

作者：elfin 资料来源：形变卷积

目录
项目地址：

形变卷积V1版本参考：https://samuel92.blog.csdn.net/article/details/86609590

Top --- Bottom

1、摘要

可变形卷积(后文我会使用形变卷积)网络的优越性能来源于其适应物体几何变化的能力。通过对其自适应行为的研究，我们发现，虽然其神经特征的空间支持比常规卷积更符合对象结构，但这种支持可能远远超出感兴趣的区域，导致特征受到不相关图像内容的影响。为了解决这个问题，我们提出了一种形变卷积的新形式，通过增强建模能力和更强的训练来提高其聚焦于相关图像区域的能力。通过在网络中更全面地集成形变卷积，并通过引入扩展形变建模范围的调制(modulation)机制，增强了建模能力。为了有效地利用这种丰富的建模能力，我们提出了一种特征模拟方案来指导网络训练，该方案可以帮助网络学习反映目标焦点和RCNN特征分类能力的特征。基于这些贡献，这个新版本的形变卷积比原始模型有显著的性能提升，并在COCO目标检测和实例分割基准上产生了领先的结果。

Top --- Bottom

2、形变网络行为分析

2.1 支持空间可视化

为了更好地理解可变形ConvNets的行为，我们通过网络节点的有效感受野、有效采样位置和误差界显著区域来可视化网络节点的支持空间。这三种模式提供了不同的和互补的观点对基础图像区域，有助于节点的信息反馈。

有效感受野

并非网络节点感受野内的所有像素都对其活动有相同的贡献反应。反应这些贡献的差异由有效感受野表示，其值被计算为节点响应相对于每个图像像素的强度扰动的梯度[31]。我们利用有效感受野来检验单个像素对网络节点的相对影响，但是注意，这种测量方法并不能反映完整图像区域的结构性影响。

有效采样/采样位置

为了解形变卷积网络的行为，我们将卷积层的采样位置和卷积层中的采样箱可视化。然而，这些采样位置对网络节点的相对贡献没有被揭示。相反，我们将包含此信息的有效采样位置可视化，计算为网络节点相对于采样/bin位置的梯度，以便了解它们的贡献强度。

误差受限显著区域

如最近关于图像显著性的研究[41，44，13，7]所证明的，如果我们去除不影响网络节点的图像区域，网络节点的响应不会改变。基于这一性质，我们可以在一个很小的误差范围内，将节点的支持域确定为最小的图像区域，给出与完整图像相同的响应。我们将其称为误差受限显著区域，该区域可以通过逐步掩蔽图像的部分并计算得到的节点响应来找到，详见附录。误差受限显著区域便于比较不同网络的支持区域。

2.2 形变网络的支撑空间

分析了形变网络在目标检测中的视觉支持区域。我们使用的常规ConvNet作为基线，由一个更快的R-CNN+ResNet-50[21]目标探测器和 aligned RoIpooling [20]组成。ResNet-50中的所有卷积层都应用于整个输入图像。conv5阶段的有效步长从32像素减少到16像素，以提高特征图的分辨率。RPN[33]头添加在ResNet-101的conv4特性之上。在conv5特性之上，我们添加了快速R-CNN头[16]，它由aligned RoIpooling和两个完全连接（fc）层组成，然后是分类和边界框回归分支。我们按照[8]中的步骤将目标探测器转换为可变形的对应物。将conv5级的3×3卷积层替换为可变形卷积层。此外，对齐的RoIpooling层被形变的RoIpooling代替。这两个网络都是在COCO基准上训练和可视化的。值得一提的是，当偏移学习速率设置为零时，可变形更快的R-CNN检测器退化为具有对齐roi池的规则更快的R-CNN检测器。

使用这三种可视化模式，我们检查了图1（a）∼（b）中conv5阶段最后一层节点的支持空间。文[8]中分析的取样位置也显示了出来。通过这些可视化，我们进行了以下观察：
- 带正则的卷积网络可以在一定程度上模拟几何变化，这可以从图像内容的空间支持度变化中得到证明。由于深度网络具有很强的表示能力，网络权值被学习以适应一定程度的几何变换。
- 通过引入形变卷积，网络对几何变换建模的能力大大增强，即使在具有挑战性的COCO基准上也是如此。空间支持更多地适应图像内容，前景节点具有覆盖整个对象的支持，而背景节点具有包含更大上下文的扩展支持。然而，空间支持的范围可能是不精确的，前景节点的有效感受野和误差受限显著区域包括与检测无关的背景区域。
- 这三种类型的空间支持可视化比[8]中使用的采样位置信息更丰富。例如，这可以在一般的卷积网络中看到，它们沿着网格具有固定的采样位置，但实际上通过网络权重调整其有效的空间支持。这同样适用于可变形网络，它的预测受到学习偏移量和网络权重的共同影响。如[8]中所述，单独检查采样位置可能会导致关于可变形网络的误导性结论。
图2（a）∼（b）显示了每RoI检测头中2fc节点的空间支持度，后面紧跟着分类和边界框回归分支。有效面元位置的可视化表明，目标前景面上的面元通常从分类分支接收较大的梯度，从而对预测产生较大影响。这一观察结果适用于aligned RoIpooling和形变RoIpooling。在形变RoIpooling中，由于引入了可学习的bin偏移量，因此比aligned RoIpooling中覆盖对象前景的bin比例要大得多。因此，下游Fast R-CNN的head可获得来自相关bins的更多信息。同时，aligned RoIpooling和形变RoIpooling中的误差有界显著区域都没有完全聚焦在目标前景上，这说明RoI之外的图像内容会影响预测结果。根据最近的一项研究[6]，这种特征干扰可能对检测有害。

虽然与常规网络相比，形变网络明显提高了适应几何变化的能力，但也可以看出，它们的支撑空间可能超出了内部区域。因此，我们寻求升级形变卷积网络，以便它们能够更好地关注相关的图像内容，并提供更高的检测精度。

Top --- Bottom

3、新的形变卷积网络

为了提高网络适应几何变化的能力，我们提出了一些改进，以增强其建模能力，并帮助它利用这种增强的能力。

3.1 堆叠更多形变卷积层

由于观察到可变形ConvNets可以有效地模拟具有挑战性的基准上的几何变换，我们大胆地将更多的卷积层层替换为形变卷积层。我们期望通过叠加更多形变卷积层，可以进一步增强整个网络的几何变换建模能力。

本文在ResNet-50的conv3、conv4、conv5三个阶段对3×3conv层替换为形变卷积。因此，网络中有12层可变形的进化。相反，在[8]中只使用了三层可变形卷积，所有这些都在conv5阶段。在[8]中观察到，对于相对简单和小规模的PASCAL VOC基准，当堆叠超过三层时，性能饱和。此外，在COCO上可视化的误导性offsets可能阻碍了对更具挑战性的基准的进一步探索。在实验中，我们观察到在conv3-conv5阶段利用形变层在COCO上实现目标检测的准确性和效率之间的最佳折衷。详见第5.2节。

3.2 调制形变模块

为了进一步增强可变形网络操纵支撑空间区域的能力，引入了一种调制机制。利用它，形变卷积网络模块不仅可以调整感知输入特征的偏移量，还可以调整来自不同空间位置/箱的输入特征幅度。在极端情况下，模块可以通过将其特征振幅设置为零来决定不感知来自特定位置/箱的信号。因此，来自相应空间位置的图像内容将对模块输出有相当大的减少或没有影响。因此，调制机制为网络模块提供另一维度的自由来调整其空间支持区域。

调制形变卷积模块的定义：

给定(K) 个采样位置的卷积核，(w_{k}) 和(p_{k}) 分别表示第(k)个位置的权重和预先指定的偏移量。例如，(K=9) 和 (p_{k}in left { left ( -1,-1 ight ),left ( -1,0 ight ),cdots ,left ( 1,1 ight ) ight })定义了膨胀系数为 (1)的 (3 imes 3) 卷积核。设(xleft ( p ight )) 和(yleft ( p ight )) 分别表示来自输入特征图 (x) 和输出特征图 (y) 的位置 (p) 处的特征。调制的形变卷积可以表示为：

[yleft ( p ight )=sum_{k=1}^{K}w_{k}cdot xleft ( p + p_{k} + Delta p_{k} ight )cdot Delta m_{k} qquad(1) ]
其中 (Delta p_{k}) 和 (Delta m_{k}) 分别是第 (k) 个位置的可学习偏移量和调制标量。调制标量是在 (left [ 0,1 ight ]) ，偏移量(Delta p_{k})是无限制的取值范围。(p + p_{k} + Delta p_{k}) 是经过V1中的双线性插值计算得到。 (Delta p_{k}) 和 (Delta m_{k}) 都是通过应用在相同输入特征图(x)上的单独卷积层获得的。该卷积层与当前卷积层具有相同的空间分辨率和膨胀系数。

输出有(3K) 的通道数，前(2K)的通道是offsets，对应着 (Delta p_{k}) ；剩余的通道是交给sigmoid层进行激活获取调制标量 (Delta m_{k}) 。这个单独的卷积层的卷积核的权值初始化为(0)。这里相当于 (Delta p_{k}) 都初始化为(0)， (Delta m_{k}) 初始化为(0.5) 。用于偏移和调制学习的添加conv层的学习速率被设置为现有层的0.1倍。

调制形变池化模块的定义：

调制形变池化模块的设计与上面类似。给定一个输入(ROI)，(ROIpooling)将其划分为 (K) 个空间单元(即：(7 imes 7))。在每一个 (7 imes 7) 的单元中使用如 (2 imes 2) 的网格进行均匀空间间隔采样。每一个网格的的采样值是输出特征图被网格选中的特征点的平均值。定义(Delta p_{k}) 和 (Delta m_{k}) 分别是第 (k) 个单元的可学习偏移量和调制标量。则输出的单元特征为：

[yleft ( k ight )=sum_{j=1}^{n_{k}}xleft ( p_{kj} + Delta p_{k} ight )cdot Delta m_{k}/n_{k} qquad(2) ]
其中，(p_{kj})表示第(k)个单元中的第(j)个网格，(n_{k})表示要采样的网格数量。双线性插值是获取(xleft ( p_{kj} + Delta p_{k} ight ))的值。 (Delta p_{k}) 和 (Delta m_{k}) 的值由输入特征图上的同级分支产生。在这个分支中，(ROIpooling)在(ROI)上生成特征，然后是两个1024-D的fc层（用标准差0.01的高斯分布初始化）。除此之外，一个额外的fc层产生(3K)个通道的输出（权重初始化为零）。与上面一样，前(2K)的通道是offsets(标准化的，使用时要分别乘以width、height)，对应着 (Delta p_{k}) ；剩余的通道是交给sigmoid层进行激活获取调制标量 (Delta m_{k}) 。用于偏移学习添加的fc层的学习速率与现有层的学习速率相同。

Top --- Bottom

3.3 R-CNN特征模拟

如图2所示，对于一般的convnet和可变形convnet，每个RoI分类节点的误差受限显著区域可以延伸到RoI之外。因此，RoI之外的图像内容可能会影响提取的特征，从而降低目标检测的最终结果。

在[6]中，作者发现上下文的冗余是Faster R-CNN检测错误的合理来源。结合其他动机（例如，在分类和BBox回归分支之间共享较少的特征），作者建议将更快的R-CNN和R-CNN的分类分数结合起来以获得最终的检测分数。由于R-CNN分类分数主要集中在从输入RoI中截取的图像内容上，因此合并这些分数将有助于缓解冗余上下文问题并提高检测精度。然而，由于快速的RCNN和R-CNN分支需要同时应用于训练和推理，因此组合系统的速度较慢。

同时，形变神经网络在调制支撑空间区域方面具有强大的功能。特别是对于Deformable ConvNets v2，调制的(ROIpooling)模块可以以排除冗余上下文的方式简单地设置容器的调制标量。然而，我们在第5.3节中的实验表明，即使使用调制形变模块，通过标准的快速R-CNN训练程序也无法很好地学习这种表示。我们怀疑这是因为传统的Faster R-CNN训练丢失，不能有效地驱动这种表征的学习。需要额外的指导来指导培训。

基于最近关于特征模拟的工作[2，22，28]，我们在形变Faster R-CNN的每个(ROI)特征上加入了特征模拟损失，以迫使它们与从裁剪图像中提取的R-CNN特征相似。这个辅助训练目标旨在驱动可变形的R-CNN学习更多Faster R-CNN那样“焦点”的特征表示。我们注意到，基于图2中的可视化支持空间区域，对于图像背景上的负roi，聚焦特征表示可能不是最优的。对于背景区域，可能需要考虑更多的上下文信息，以免产生假阳性检测。因此，特征模拟损失仅在与GT真实物体充分重叠的正roi上实施。

图3给出了训练可变形Faster R-CNN的网络结构。除了Faster R-CNN网络外，还增加了一个R-CNN分支用于特征模拟。给定一个用于特征模拟的(ROI) b，对应的图像块被裁剪并调整为224×224像素。在R-CNN分支中，主干网对调整大小的图像块进行操作，并生成14×14空间分辨率的特征图。在特征图的顶部应用（调制的）形变RoIpooling层，其中输入RoI覆盖整个调整大小的图像块（左上角位于（0，0），高度和宽度为224像素）。之后，应用2个1024-D的fc层，为输入ROI区域产生R-CNN特征表示，由(f_{RCNN} left( b ight)) 表示。分类使用的是(left( C+1 ight)) 的Softmax分类器，其中(C)是前景的类别数。RCNN特征模仿损失在计算(f_{RCNN} left( b ight))与(f_{FRCNN} left( b ight))的差异，损失函数由两者之间的余弦相似度得到：

[L_{mimic}=sum_{bin Omega }left [ 1-cosleft ( f_{RCNN} left ( b ight ) , f_{FRCNN}left ( b ight ) ight ) ight ] qquad(3) ]
其中(Ω)表示为特征模拟训练而采样的(ROIs)集。在SGD训练中，给定一幅输入图像，将RPN生成的32个候选区域随机抽样到(Ω)中。在R-CNN分类头上的交叉熵分类损失也得到增强。网络训练是由特征模拟损失和R-CNN分类损失以及R-CNN中的原始损失项共同驱动的。这两个新引入的损失项的损失权重是原Faster R-CNN损失项的0.1倍。R-CNN中的相应模块和Faster R-CNN分支之间的网络参数是共享的，包括骨干网、（调制的）形变(ROIpooling)和2个fc头（两个分支中的分类头是非共享的）。在推理过程中，只对测试图像应用Faster R-CNN网络，没有辅助的R-CNN分支。因此，在推理中R-CNN特征模拟不引入额外的计算。

Top --- Bottom

未完！
清澈的爱，只为中国
相关阅读:
中文文本分类 pytorch实现
 常用各类数据集
 20 个大型中文文本数据集
 Transformers 简介（上）
磐创AI|人工智能开发者中文文档大全-TensorFlow,PyTorch,Keras,skearn,fastai,OpenCV,聊天机器人,智能客服,推荐系统,知识图谱
 JointBert代码解读(五)
模拟测试20190803
模拟测试20190802
模拟测试20190729
模拟测试20190727
原文地址：https://www.cnblogs.com/dan-baishucaizi/p/14440733.html

Deformable ConvNet V2

Deformable ConvNet V2(论文解析)

1、摘要

2、形变网络行为分析

2.1 支持空间可视化

2.2 形变网络的支撑空间

3、新的形变卷积网络

3.1 堆叠更多形变卷积层

3.2 调制形变模块

3.3 R-CNN特征模拟