• 论文阅读笔记(四十三)【AAAI2020】:Rethinking Temporal Fusion for Video-based Person Re-identificationon Semantic and Time Aspect


    Introduction

    作者认为之前提出的网络忽视了不同阶段的特征差异,新提出了一个同时考虑时间、语义信息的网络框架。在时间维度采用了注意力机制,之前的方法都是将每一帧看成独立的个体提取注意力得分,但作者考虑了帧与帧之间的关系信息;在语义维度采用了CNN多层特征融合的策略

    Methods

    (1)概述:

     

    (2)时间维度:Intra/Inter-Frame Attention:

    为了降低帧之间的冗余信息,并把注意力集中到重要的帧上,提出了帧内/帧间注意力机制。给定L帧图像,提取得到的视频特征向量为,计算方法为:

    权重的计算为:

    其中w表示帧内注意力权重,v表示帧间注意力权重。

    ①     帧内注意力权重:

    大部分现有的注意力计算方法是基于该帧自身的质量和内容,这种注意力机制称为帧内注意力权重。假定视频包含L帧,通过骨干网络提取得到第i帧的特征为,通过二元回归器得到权重为:

    ②     帧间注意力权重:

    为了关注更有判别力的特征,降低冗余,包含相似视觉信息的帧应该被分配到更低的注意力权重。因此,帧的权重也要考虑到与其它帧的关系度和差异性,这种注意力机制称为帧间注意力权重。

    上图为作者提出的基于帧间注意力模块的关系网络。首先采用骨干网络提取出帧的特征,最直接的方法是采用距离度量方法(欧氏距离或者余弦距离)计算得到两帧的相似度,帧间的注意力得分计算为:

    作者对此做了深层次的改进,提出了关系网络。输入每对帧的特征信息,即维的特征,通过多层感知,投影到了维的关系空间,得到关系映射计算为:

    由此得到一个规格为的关系映射矩阵,通过1*1卷积输出通道维度为1的关系注意力矩阵,每个元素表示第i帧和第j帧的关系权重,通过计算同其他L-1帧权重的平均得到该帧的关系注意力权重:

    (3)语义维度:Multi-Stage:

    在多阶段特征融合上,作者采用了语义注意力模块。假定有K个来自不同阶段的特征,每个阶段的输出设为g,通过Softmax得到该阶段的重要性得分,即:

    具体表示为:第i个分支提取的特征在第j个分支上所占的注意力权重。通过求平均得到第j个分支的注意力权重:

    最终输出的特征为:

    Experiments

    (1)实验设置:

    ① 数据集设置:PRID2011、iLIDS-VID、MARS;

    ② 实验细节:采用了ResNet50作为骨干网络,用CUHK03、DukeMTMC、Market1501进行预训练,再在PRID2011、iLIDS-VID、MARS微调。

    (2)实验结果:

     

  • 相关阅读:
    常规渗透:没遇到过的anquan狗
    SQLi-db 批量注入工具+教程
    国外整理的一套在线渗透测试资源合集
    重大漏洞!PHP multipart/form-data头部解析远程拒绝服务漏洞
    MS15-051 修正版Exploit(Webshell可用)
    网站渗透常用到的Python小脚本
    项目<<魔兽登录系统>>
    第七章:存储过程
    第六章:事务,视图和索引
    SQL高级查询:嵌套和分页
  • 原文地址:https://www.cnblogs.com/orangecyh/p/13173342.html
Copyright © 2020-2023  润新知