TransTrack: Multiple-Object Tracking with Transformer
2021-01-05 09:47:31
Paper: https://arxiv.org/pdf/2012.15460.pdf
Code: https://github.com/PeizeSun/TransTrack
1. Background and Motivation:
一般 MOT 都是基于 object detection 和 reid 一起来做,但是这种跟踪方式导致跟踪算法复杂,低效。受到 SOT 领域中 Siamese network 的启发,作者提出能够迁移该 key-query 的方式到 MOT 问题上呢?但是直接迁移存在的问题是:无法很好地处理新出现的物体。因此,object detection module 是必须要引入的。所以,作者基于 transformer 模型,提出一种连接物体检测与跟踪的 MOT 方法。算法框架如下所示:
2. Approach:
具体的 transformer 结构如上图所示。可以看到作者首先利用 resnet-50 提取输入图像的特征,得到连续两帧的 feature map,然后输入到一个 encoder 模块中,该模块是由 多个 self-attention 加 feed forward layer 构成的。输出的特征会同时输送到两个并行的 decoder 模块中。这两个 decoder 模块分别用于编码 object feature query 和 learned object query,然后会输出对应的 object feature,以得到 tracking box 和 detection box。然后 利用 IoU matching 的方式,得到最终的跟踪结果。