MASK-RCNN是一个多用途的网络,可以用来做目标检测,实例分割或者人体姿态识别.主要结构如下.
简单的说,就是首先用Faster-RCNN获得ROI,再进行ROI Align,然后输出ROI的分类,同时输出分割掩码.
1. Faster-RCNN和ROI Align
Faster-RCNN是一个两阶段检测器,第一阶段(即RPN)提出候选ROI,再过滤掉一部分,第二阶段对剩下的ROI进行分类.
MASK-RCNN对Faster-RCNN做了修改,获得ROI以后并没有马上输出分类,而是进行了ROI Align.ROI Align通过双线性插值获得准确的特征图,而不是四舍五入以后的特征图.例如,如果输出的ROI坐标是[x/16],其中16是特征图步幅,[⋅]表示四舍五入,这样获得的特征图和ROI的坐标并没有完全对端,虽然对分类影响不大,但是对掩码的输出影响较大.ROI Align通过双线性插值获得准确的特征图,如下图所示.