4 Mask RCNN Arc.(Part3) - How RoI Pooling, RoI
分类任务(Fast-CNN、Faster-CNN):两次 quantized,损失精度;
Mask-CNN:RoI Pooling -> RoI Align
4)假定采样点数为4,即表示,对于每个2.97*2.97的小区域,平分四份,每一份取其中心点位置,而中心点位置的像素,采用双线性插值法进行计算,这样,就会得到四个点的像素值,如下图
上图中,四个红色叉叉‘×’的像素值是通过双线性插值算法计算得到的 最后,取四个像素值中最大值作为这个小区域(即:2.97*2.97大小的区域)的像素值,如此类推,同样是49个小区域得到49个像素值,组成7*7大小的feature map 双线性插值法 |
|
双线性插值法在两个方向分别进行一次线性插值。 这里写图片描述 在图像处理的时候,我们先根据
来计算目标像素在源图像中的位置,这里计算的srcX和srcY一般都是浮点数,比如 f(1.2, 3.4)这个像素点是虚拟存在的,先找到与它临近的四个实际存在的像素点
写成 f(i+u,j+v) 的形式,则 u=0.2,v=0.4, i=1, j=3 。
保证了 空间对称性(Alignment),在 RoI Align 中使用。 |
ROI Align因此有人提出不需要进行取整操作,如果计算得到小数,也就是没有落到真实的pixel上,那么就用最近的pixel对这一点虚拟pixel进行双线性插值,得到这个“pixel”的值。 具体做法如下图所示:
|
|
--> mask 边界 & 非边界(检测象素梯度变化),分别处理 |