• 《Reasoning-RCNN: Unifying Adaptive Global Reasoning into Large-scale Object Detection》笔记


    参考:https://zhuanlan.zhihu.com/p/66762531

    摘要重点

    1.针对问题

    长尾数据分布、严重的遮挡和类的模糊性

    2.现状

    主流的对象检测范式由于不考虑对象之间的关键语义依赖而单独处理每个对象区域而受到限制

    3.创新

     Reasoning-RCNN

           该网络建立在基本检测网络特征表示的基础上,通过对每个类别前一分类层的权值进行加权,生成一个全局语义库,然后在全局语义库中加入不同的语义上下文,自适应地增强每个对象的特征。我们的自适应全局推理不是从所有可能的语义信息中传播信息,而是自动发现与特征演化相关的大多数类别。

           也就是说,该文章主要创新点是引入了Global Semantic Pool (全局语义池)和Knowledge Graph(知识图谱),到达了特征增强的效果。

     网络概述

    Reasoning-RCNN网络概述图

      文章说,Reasoning-RCNN可以堆叠到任何检测网络中。将基础网络中的分类器的权重收集起来形成一个覆盖所有类别的全局语义池,然后将全局语义池输入自适应全局推理模块。增强后的类别上下文(也就是推理模块的输入)通过一个软连接映射回区域提案。最后,利用每个区域的增强特征以端到端的方式提高分类和定位的性能。

      图左侧Base Detector为基础的检测网络,

      Base Feature为基础特征,

      Proposals Feature为建议特征,(我觉得应该算是高级语义特征)

      ROI Align 是在Mask-RCNN这篇论文里提出的一种区域特征聚集方式, 很好地解决了ROI Pooling操作中两次量化造成的区域不匹配(mis-alignment)的问题。实验显示,在检测测任务中将 ROI Pooling 替换为 ROI Align 可以提升检测模型的准确性。

      Box Regression 回归框

      Classifier 分类

      Classifier Weights 分类权重

      image-wise图像级别,比如一张图片的标签是狗,是对整个图片的标注。Image-wise Attention ,注意力机制。

      Global Semantic Pool M 全局语义池由基础网络的分类权重组成,包含所有分类。

      Knowledge Graph 知识图谱,编码存在的语义知识(可以是属性,关系)。无向图G<N,ε>,N代表节点数,也就是类别数,ε代表边数,也就是所连接的i,j节点之间的知识。

      Adaptive Global Reasoning 自适应全局推理模块,Global Semantic Pool M和 Knowledge Graph 输入其中。 

      Refined Proposals Features 重定义建议特征

      Soft Mapping to Proposals 软连接到建议特征,将Adaptive Global Reasoning 的结果软连接到 Refined Proposals Features

      Enhanced Features 增强后的特征,由Refined Proposals Features产生,融合了原始特征和增强特征

      也就是说,全局语义池获取基础分类权重,知识图谱定义语义知识,输入到自适应全局推理模块。全局推理模块生成新分类,并软连接到Refined Proposals Features模块,生成增强的特征,最终生成新的分类和定位。

    Adaptive Global Graph Reasoning Module

     

     自适应全局推理模型概述

     首先是关于f的定义。f表示为从骨干网中提取的所有N r = |N|region proposals的D维视觉特征。

    文章提到了region proposals,我认为proposals feature是从region proposals中提取出来的。

     Global Semantic Pool 和Knowledge Graph相结合生成新的信息,通过Attention进行表示(不太懂)。通过soft Mapping 生成Enhanced Features,也就是增强后的特征。此时特征由D维变为E维。

    Global Semantic Pool M

    作者说现有的大多数作品通常在区域间局部传播视觉特征。但是,这个图可能会因为不好而导致图推理失败或者当图像中存在严重的遮挡和类歧义时,就会分散特征表示,这在大规模检测中很常见。作者提出了一个方法,在所有类别(不仅仅是图像中出现的类别)上全局传播信息。这就需要创建一个全局语义库来存储所有类别的高级语义表示。

    由于通过聚类等方法生成全局语义池的计算量太大。作者提出新方法。设表示全局语义池,R是权重,C表示特征类别数,D表示特征维数。通过复制分类网络中的参数得到全局语义库。在训练网络期间每个迭代中都会更新分类器,使全局语义池M变得更加准确。

    Feature Enhanced via Graph Reasoning

    在生成全局语义池后,通过先验知识图谱的边矩阵,将C类之间进行连接。然后信息就被C类共享,表示为。为了增强特征,需要找到region proposals N r和类别C之间的映射。作者将直接映射的方法叫做hard-mapping ,作者提出了自己的方法 soft-mapping,是一个覆盖C类的分类概率分布,这个分布可以从之前分类中的得分中得到。然后整个过程可以用矩阵乘法表示,WG是一个被图谱分享的转换权重矩阵(is a transformation weight matrix shared for all graphsE是推理模型的输出维数。因为全局推理是针对所有类别的,所以会混入噪声,对此作者引入了自适应注意力机制。

     Adaptive Attention

     分为

    压缩阶段,将图像特征输入到一个CNN(卷积核为3*3,输出通道为D/64)和一个全局池化层中,压缩一半尺寸。

    激活阶段,是全连接层,输入

    soft-max,获得分类的Attention。。其中。Ws是全连接层的权重。

    是信道乘积( channel-wise product),其余是矩阵相乘。

     

     详细的自适应全局推理流程图

            全球语义推理进行池M根据先验知识图边e . image-wise适应性注意α计算从压缩和激发强调相对类别图像的基本特性。然后自适应全局推理与αchannel-wise获得的乘积。在此基础上,根据权值W G进行矩阵乘法,得到增强特征f`。

      最终将增强特征f`连接到f上获得 [f;f ′ ] ,进行分类和定位。

    Model Specification with Relation Knowledge

    G: 知识

    GR:知识关系,类间的成对关系,如 “主语-动词-对象”的关系,空间关系

    类别之间的高级语义关联将增强全局语义库。首先,我们从语义信息或简单地从所有类别对之间的出现次数来计算一个C*C的频率统计矩阵Rc,然后,我们把转置(Rc) T加回Rc。对列进行归一化,最终得到了标准化的GR

     实验结果如下

     

     

     

  • 相关阅读:
    软件设计项目进展01 2019/8/19
    mysql中使用utf-8乱码
    mysql学习
    eclipse中怎么查看jsp生成的java代码
    tomcat配置出现问题
    关掉win10下面的ctrl+alt+up/dowm
    java程序运行时内存分析
    java内部类
    Struts2 ERROR StatusLogger No log4j2 configuration file found. Using default configuration: logging
    win10下 Edge和IE浏览器都不能上网,而其他浏览器可以。怎么办?
  • 原文地址:https://www.cnblogs.com/zuhaoran/p/11905925.html
Copyright © 2020-2023  润新知