论文阅读笔记（三十七）【AAAI2020】：Frame-Guided Region-Aligned Representation for Video Person Re-identiﬁcation

论文阅读笔记（三十七）【AAAI2020】：Frame-Guided Region-Aligned Representation for Video Person Re-identiﬁcation

Introduction

本文设计了Frame-Guided Region-Aligned model（FGRA）。模型结构包含两个分支：全局分支和局部分支。全局分支用来提取全局的特征，局部分支再细分为区域对齐机制和特征聚合策略。FGRA可以对视频的每一帧的区域进行对齐，在遇到类似下图的姿态、尺寸失调的情况也能够提取出鲁棒的时空线索。

Proposed Method

（1）问题定义：

假定一个probe视频序列为：，其中N为视频序列的长度，D为图像的维度；gallery视频序列为：。

（2）框架概述：

输入视频序列到骨干网络中，提取出帧级特征，随后分别通过两个分支提取到全局特征和局部特征。

全局特征提取模块：对所有帧级特征进行平均池化，将特征压缩到通道维度，再采用时间注意力机制对各帧进行加权平均，最后用1*1卷积压缩到1024维度的视频级全局特征。

局部特征提取模块：采用了区域对齐机制和特征聚合策略，提取得到的局部特征划分为：，其中为划分的区域数量。将区域特征和帧级特征放入Guide Alignment Module（GAM）中得到区域对齐后的特征，最后通过时空注意力机制等得到视频级局部特征。

（3）区域对齐机制：

可以解决两个问题：对齐行人的身体区域；判断哪部分区域包含更多的信息。

①     时间特征学习：每一帧的上一帧都能提供信息线索，本模块把第一帧作为参考帧，并将其通过平均池化转为若干个特征向量。通过1*1卷积进行降维。

②     引导对齐模块（GAM）：

输入一个局部特征向量和单帧的特征向量，进行交叉计算求各个像素区域的相似度映射，计算如下：，其中 * 可以视为组卷积，而可以视为卷积核（计算方法为：depth-wise cross correlation）。再采用BN层和Sigmoid函数将元素单位化，最终采用Hadamard积获得该区域的局部特征，计算为：。

③     一致性正则化（Consistency Regularization）：采用了中心损失来保证对齐的一致性，具体为：，其中为N帧的局部特征的平均值。

（4）特征聚合策略：

通过上述步骤已经获得了对齐的局部特征，通过时空注意力机制将一个视频序列映射为了视频级局部特征。

①     时间对齐得分：计算每一帧所需要占的权重，它反映了对齐的特征包含了多少的信息量，计算为：，再采用Sigmoid函数：，最后在时间维度进行加权，即：。

②     空间注意力特征学习：通过时间对齐得分的加权，得到了不同区域的局部特征，将其进行concat连接为，传入卷积层生成空间注意力权重，即：，函数g(.)包含了一个1D卷积层、BN层、ReLU层。最后计算视频级局部特征为：。

③     全局、局部特征融合：。

（5）目标函数：

采用Softmax损失和三元组损失，具体如下：

结合了一致性正规化项：

目标函数为：

Experiments

（1）实验设置：

① 数据集设置：iLIDS-VID，PRID-2011，MARS；

② 实验细节与参数设置：视频帧的长度 N = 6，采用随机抽取的方式；输入的帧大小为256*128，采用随机缩放、镜像翻转、随机擦除等数据增强技巧；mini-batch大小为64，其中为16个ID各4个视频段；分块大小为4块；三元组损失的边界参数为0.5；采用Adam优化器，weight decay 为0.0005；训练迭代次数为300次；学习率为0.03，每100次下降为0.1倍。

（2）实验结果：
相关阅读:
Java设计模式——单例模式
 重新学习MyBatis-逆向工程
 重新学习MyBatis(六)
重新学习MyBatis(五)
重新学习Mybatis(四)
重新学习MyBatis(三)
重新学习Mybatis(二)
Java设计模式重新出发
 回归问题常用的损失函数总结
 Matlab绘图局部放大
原文地址：https://www.cnblogs.com/orangecyh/p/13171923.html