Grounding-Tracking-Integration
2020-05-19 11:00:57
Paper: https://arxiv.org/pdf/1912.06316
本文提出一种 tracking-by-language 的算法,来根据文本描述进行目标跟踪。思路比较直观,将该任务分为三个子任务:grounding,tracking,以及integration。
因为只有language描述,所以第一帧的定位显得格外重要,这里作者采用了顶尖的 grounding 算法来实现;
关于 tracking,用的是 SiamRPN++ 跟踪算法;
文章的核心创新是 integration,如何有效地将 grounding 和 tracking 算法进行结合,是非常重要的。
上图是作者提出的 GTI 跟踪框架。用神经网络的方法学习了一个 RT-score 来判断 grounding 的结果是否可靠。具体的算法示意图如下:
那么,重点来看 RT-score 预测部分:
R-score 用于建模产生的 BBOX 到底有多准确。如果 R-score 得分很低,grounding 可能是失败了,这时候可以用 tracking 的方法来协助进行纠正。R-score 定义为:language grounding regions 和 GT box 之间的 IoU得分。
T-score 建模了 目标图像块 能否很好地作为目标模板进行跟踪。
作者用两个单独的回归网络来预测这两个得分。