弄懂基本上的专有术语以后,阅读理解论文的速度就会大大增快,所以,看到每篇论文的生词就记录下来,方便以后查阅和学习!
2.中的术语:object dection(目标检测),region proposal network(RPN 区域推荐网络),
bilinear interpolation(双线性插值),Faster-RCNN,
3.中subject-predicate-object(主语-谓语-宾语),relation annotation(关系采样),softmax(回归模型),Feature Extraction(特征提取),
Visual Feature(视觉特征),weighted concatenation(加权连接),ROI pooling解析,non-maximum suppression (NMS 非极大值抑制),
intersection over union (IoU 重叠区域),Optimization(优化),
confident region(置信区域),
4.中的术语:JointBox(联合标记框),State of The Arts(时下最优算法),Phrase Detection(短语检测)。
2.3视觉关系检测不仅仅是标记出目标们所在区域,更要描述它们的相互关系。
3.2位置特征不但在检测空间或者借此关系时有用,而且在检测动词时也有用,比如,当谓语是“骑”的时候,主体通常是在目标的上方。特征提取层将目标检测模块和关系预测模块耦合到一起。
3.3训练用的图片使用一个“主谓宾”三元组来标记,其中每个不同的主体或者目标用边界框注释出来。在测试阶段,VTransE输入一张图片,输出一个检测到的目标的集合,并且输出每一对目标的集合,并且输出每一对目标之间的关系的预测评分。损失函数是合成了目标检测损失和关系检测损失的多任务损失函数,这就使得目标和关系能够相互学习。
4.1目前主要有两个大规模关系检测数据集,VRD(视觉关系数据集)和VG。
4.2联合标记框将主体和目标当做一个联合边界框进行谓词预测,VTransE则对一对主体和目标进行预测。为了较为公平的比较,我们两个方法都只使用边界框的ROI pooling视觉特征。结果表明,大部分谓词VTransE都能预测正确,而联合框方法在某些确定的模式下很可能产生偏差。比如,联合框预测“park on”这个动作仅局限于汽车,而VTransE方法则可以将这个动作扩展到飞机和公共汽车(问题,VTransE具体是怎么样工作的,为什么能扩展到飞机和公共汽车)。VTransE则可以则表现地更理解“beneath”的含义。
4.3VTransE端到端的训练方法有利于目标检测。因为特征提取层采用了知识转换的方法,是的关系预测产生的错误能够反向传播到目标检测模块。
4.4端到端的VTransE比2阶段的VTransE-2stage在整个数据集上表现得都要好。结果证明了目标和关系相互学习的有效性。