• 论文阅读笔记(六十八):图文跨模态行人检索(3篇)


    1. Pose-Guided Multi-Granularity Attention Network for Text-Based Person Search【AAAI2020】

    (1) 视觉特征提取:

    作者认为人体姿态信息可以引导局部特征的匹配,因此引入了2017年提出的PAF模型进行姿态估计,提取14个关键点。由于行人会受到遮挡等情况,关键点也并非精确,其置信图如下图所示。关键点置信图存在两个作用:

    ① 与原图的3个通道级联,得到17通道的初始数据,输入VGG-16 (ResNet-50也同理)中,提取[12, 4, 512]尺寸的特征图,再将特征图按PCB的策略划分为6个条纹,每个条纹在第一个维度上取平均,得到尺寸为[6, 4, 512]的特征图,将其视为24个局部,每个局部对应512维特征向量。

    ② 14个置信图被用于与名词短语之间的语义对齐。

    (2) 文本特征提取:

    文本特征采用Bi-LSTM提取,其中名词短语采用2002年提出的NLTK进行查找,并同样用Bi-LSTM提取名词短语的特征。

    (3) Coarse Alignment Network:

    用余弦相似度计算每个图像局部区域和整体文本的特征相似度,最终整体图像与整体文本的相似度得分为:阈值=1/24

    (4) Fine-Grained Alignment Network:

    14个关键点被划分为6个身体区域,每个区域的特征图相加,并通过Pose CNN投影为b维的特征向量,即:,每个名词短语特征都投影到相同的特征维度,即:。计算第1个区域的文本特征,即:

    其余5个区域的文本特征同理。相同的机制也应用到了视觉特征,即:

    图文细粒度的相似度为:

    (5) 损失函数:

     采用了Identify-aware的思想,对不同模态采用了ID损失。并对不同模态之间采用了三元组损失。对姿态的特征p进行分类损失,使得这6个特征能表示不同类别。

    (6) 实验结果:

    2. ViTAA: Visual-Textual Attributes Alignment in Person Search by Natural Language【arXiv2020】

    (1) Align Loss:

    采用余弦相似度评估图文特征距离,即:

    约束表示为:

    具体化为Alignment Loss为:

    (2) K-reciprocal Sampling:

    通俗理解为:找到包含同一个属性且互相最相似的样本对。

    (3) 实验结果:

     

    3. Person Search with Natural Language Description【CVPR2017】

  • 相关阅读:
    如何在CentOS 7中安装最新Git(源码安装)
    centos7安装Lua
    syslog-ng 学习
    syslog-ng内容讲解
    java框架篇---spring IOC 实现原理
    java 过滤器filter使用案例
    jsp-TagLib标签库
    阿里服务器+Centos7.4+Tomcat+JDK部署
    IntelliJ IDEA上创建maven Spring MVC项目
    ServiceStack.Redis之IRedisClient
  • 原文地址:https://www.cnblogs.com/orangecyh/p/14642375.html
Copyright © 2020-2023  润新知