CoupleNet的网络结构:
在R-FCN只提取了局部信息,只利用提取局部信息置信度非常低,所以需要将全局信息进行融合来提高准确率。比如,对于边界的物体,全局信息的置信度不高,但是在录入人眼,嘴巴这些地方的局部信息的置信度会比较高。对于结构体比较简单的物体,比如餐桌,凳子等,局部信息置信度就会比较低,但是全局信息置信度比较高。
整体框架为,从RPN中生成了候选框ROI之后,分两路前进,一路为Local FCN,PSROI Pooling提取局部信息;一路为Global FCN提取全局信息,最终融合在一起做判定。
Local FCN:
提取局部信息(就是R-FCN中的部分),在Conv5之后,经过1×1大小,channel数为k×k×(c+1)的卷积核,得到位敏feature map,然后利用产生的feature map进行PSROI Pooling。
Global FCN:
ROI Pooling是具有提取全局特征的,因为它就像把ROI对应的feature map 压缩了一下,但是答题信息还是保留的,因此提取全局信息就采用了原始的ROI Pooling,并且引入上下文信息,通过将ROI对应的feature map向外扩大一倍的方式获取。