• 论文阅读笔记(三十七)【AAAI2020】:Frame-Guided Region-Aligned Representation for Video Person Re-identification


    Introduction

    本文设计了Frame-Guided Region-Aligned model(FGRA)。模型结构包含两个分支:全局分支和局部分支。全局分支用来提取全局的特征,局部分支再细分为区域对齐机制和特征聚合策略。FGRA可以对视频的每一帧的区域进行对齐,在遇到类似下图的姿态、尺寸失调的情况也能够提取出鲁棒的时空线索。

    Proposed Method

    (1)问题定义:

    假定一个probe视频序列为:,其中N为视频序列的长度,D为图像的维度;gallery视频序列为:

    (2)框架概述:

     

    输入视频序列到骨干网络中,提取出帧级特征,随后分别通过两个分支提取到全局特征和局部特征

    全局特征提取模块:对所有帧级特征进行平均池化,将特征压缩到通道维度,再采用时间注意力机制对各帧进行加权平均,最后用1*1卷积压缩到1024维度的视频级全局特征。

    局部特征提取模块:采用了区域对齐机制和特征聚合策略,提取得到的局部特征划分为:,其中为划分的区域数量。将区域特征和帧级特征放入Guide Alignment Module(GAM)中得到区域对齐后的特征,最后通过时空注意力机制等得到视频级局部特征。

    (3)区域对齐机制:

    可以解决两个问题:对齐行人的身体区域;判断哪部分区域包含更多的信息。

    ①     时间特征学习:每一帧的上一帧都能提供信息线索,本模块把第一帧作为参考帧,并将其通过平均池化转为若干个特征向量。通过1*1卷积进行降维。

    ②     引导对齐模块(GAM):

    输入一个局部特征向量和单帧的特征向量,进行交叉计算求各个像素区域的相似度映射,计算如下:,其中 * 可以视为组卷积,而可以视为卷积核(计算方法为:depth-wise cross correlation)。再采用BN层和Sigmoid函数将元素单位化,最终采用Hadamard积获得该区域的局部特征,计算为:

    ③     一致性正则化(Consistency Regularization):采用了中心损失来保证对齐的一致性,具体为:,其中为N帧的局部特征的平均值。

    (4)特征聚合策略:

    通过上述步骤已经获得了对齐的局部特征,通过时空注意力机制将一个视频序列映射为了视频级局部特征

    ①     时间对齐得分:计算每一帧所需要占的权重,它反映了对齐的特征包含了多少的信息量,计算为:,再采用Sigmoid函数:,最后在时间维度进行加权,即:

    ②     空间注意力特征学习:通过时间对齐得分的加权,得到了不同区域的局部特征,将其进行concat连接为,传入卷积层生成空间注意力权重,即:,函数g(.)包含了一个1D卷积层、BN层、ReLU层。最后计算视频级局部特征为:

    ③     全局、局部特征融合:

    (5)目标函数:

    采用Softmax损失和三元组损失,具体如下:

     

    结合了一致性正规化项:

    目标函数为:

     

    Experiments

    (1)实验设置:

    ① 数据集设置:iLIDS-VID,PRID-2011,MARS;

    ② 实验细节与参数设置:视频帧的长度 N = 6,采用随机抽取的方式;输入的帧大小为256*128,采用随机缩放、镜像翻转、随机擦除等数据增强技巧;mini-batch大小为64,其中为16个ID各4个视频段;分块大小为4块;三元组损失的边界参数为0.5;采用Adam优化器,weight decay 为0.0005;训练迭代次数为300次;学习率为0.03,每100次下降为0.1倍。

    (2)实验结果:

  • 相关阅读:
    C语言基础10
    swift笔记06
    C语言基础09
    C语言基础08
    C语言基础07
    C语言基础06
    swift笔记05
    Swift笔记4
    C语言基础05
    [转]一个清华计算机博士生的退学申请
  • 原文地址:https://www.cnblogs.com/orangecyh/p/13171923.html
Copyright © 2020-2023  润新知