针对行人视频中存在部分帧的局部遮挡,本文提出了Spatio-Temporal Completion netwrok(STCnet)网络,利用其它帧来填补遮挡部位,与Reid模块整合为VRSTC框架。
STCnet的网络如下图。STCnet包含了三个部分:① 空间结构生成器的输入为清除遮挡区域的行人图片(遮挡区域的像素为0),采用训练好的GAN补全遮挡区域。② 时间注意力生成器利用相邻帧的信息对遮挡区域再进行补充,注意力模块的计算见图2,该生成器采用了三个平行的编码器,其中一个对遮挡区域编码,另外两个对前后帧进行编码,再输入到两个注意力模块中,得到的2个特征级联后输入解码器得到最终的输出。③ ReID模块包含了2个判别器和ID Guider,判别器分别为全局判别器和局部判别器,ID Guider由Resnet50组成。
VRSTC的框架如下图。相似度采用当前帧与帧序列平均值计算得出。
实验结果: