Mask RCNN
Mask RCNN 中主要改进是在faster rcnn中box regression 的branch 上加入mask prediction branch,能够得到点到点的预测。
主要特点为:
- mask branch 是一个FCN结构,对每个ROI region 产生k * m*m 的mask 结果,k 为分类类别数。与FCN最大的不同是对分类和分割解耦。假设groundtruth 中目标属于类别k,则损失只和第k个mask 有关,其它mask 不参与损失的计算。每个mask 计算二分类的交叉熵损失(属于此类别或不属于),而不像FCN中计算每个点的softmax 和多分类的交叉熵损失。
- ROIAlign: 对于faster rcnn 中的ROI Pooling,其在生成feature map 多次取整,因此在进行点到点的预测时,会有较大的偏差,在mask rcnn 中采用RoIAlign 层,将ROI Pooling 时对应的[x/16] 转换为x/16, 不进行取整,采用双线性插值使得准确计算每个ROI bin是的位置,保留非整数。