• FPT:又是借鉴Transformer,这次多方向融合特征金字塔 | ECCV 2020


    论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错

    来源:晓飞的算法工程笔记 公众号

    论文: Feature Pyramid Transformer

    Introduction


      讲论文前先捋一下CNN网络结构相关的知识,论文的思想主要来自两个,一个是特征金字塔结构,一个是Non-local网络:

    • 首先是特征金字塔,如图1a,CNN网络以层级结构的形式逐层提取更丰富的特征,然后使用最后的特征层进行预测。但对于一些小物体而言,最后一层的特征图往往没有足够的像素点进行预测。为了更好地对不同大小的物体进行预测,人们提出图1b的金字塔特征,大物体使用高层的粗粒度特征,小物体使用底层的细粒度特征。对于一些pixel-level任务,比如语义分割,需要综合不同层的上下文信息进行细致的预测,所以就需要图1c的预测结构。
    • 其次是Non-local network,该网络借鉴了NLP模型的Self-attention思想,如图1d所示,能够借鉴特征图上的其它特征点来对当前特征点进行增强。

      基于上面两个思想,论文提出了FPT(Feature Pyramid Transformer),结构如图1e所示,核心在特征金字塔上进行类似Non-local的特征增强,然后再使用多层特征进行预测。FPT设计了3种特征增强操作,也是论文的主要贡献:

    • ST(Self-Transformer):跟non-local操作一样在对当前层进行特征增强。
    • GT(Grounding Transformer):这是top-down形式的non-local操作,将高层特征(尺寸小的)分别用于低层特征的增强。
    • RT(Rendering Transformer):这是bottom-up形式的non-local操作,将低层特征(尺寸大的)分别用于高层特征的增强。

    Feature Pyramid Transformer


      FPT的特征转换流程如图2所示,输入为金字塔特征,首先对每层特征分别进行ST、GT、RT特征增强得到多个增强后的特征,然后对增强的特征按尺寸进行排序,将相同大小的特征concate到一起,通过卷积将增强后的特征维度恢复到输入时的相同维度。

    Non-Local Interaction Revisited

      由于论文提出的特征增强操作与non-local操作有很大关系,这里需要先介绍下non-local的思想。常规non-local操作的输入为单特征图\(X\)上的queries(Q), keys(K)和values(V),输出与\(X\)尺寸相同的增强特征\(\hat{X}\)

    \(q_i=f_q(X_i)\in Q\)\(k_j=f_k(X_j)\in K\)\(v_j=f_v(X_j)\in V\)\(f_q(\cdot)\)\(f_k(\cdot)\)\(f_v(\cdot)\)为对应的线性变换,\(X_i\)\(X_j\)为特征图\(X\)上的第\(i^{th}\)\(j^{th}\)位置上的特征,\(F_{sim}\)为相似度函数,默认为点积,\(F_{nom}\)为归一化函数,默认为softmax,\(F_{mul}\)为权重集成函数,默认为矩阵相乘,\(\hat{X}_i\)为输出特征图\(\hat{X}\)的第\(i^{th}\)位置上的特征。

    Self-Transformer

      ST为改进版non-local操作,如图1a所示,主要有两点不同:

    • \(q_i\)\(k_j\)分为\(\mathcal{N}\)部分,然后计算每部分的每组\(q_{i,n}\)\(k_{j,n}\)相似度分数\(s^n_{i,j}\)
    • 相似度计算使用改进的MoS(Mixture of Softmaxes)函数\(F_{mos}\)

      \(\pi_n=Softmax(w^T_n \overline{k})\)为特征集成时的权重,\(w_n\)为可学习的线性变换,\(\overline{k}\)为所有\(k_j\)的均值。

      基于上述的改进,ST定义为:

    Grounding Transformer

      GT是top-down形式的non-local操作,如图2c所示,借用高层的粗粒度特征\(X^c\)来增强低层的细粒度特征\(X^f\)。在计算时,相似度计算由点积替换为更高效的欧氏距离\(F_{eud}\)

    \(q_i=f_q(X^f_i)\)\(k_j=f_k(X^c_j)\)。GT跟ST一样将\(q_i\)\(k_j\)分为\(\mathcal{N}\)部分,完整的定义为:

      在特征金字塔中,高低层特征分别包含图片的全局和局部信息,而对于语义分割任务,不需要关注过多高层的全局信息,更多的是需要query位置附近的上下文信息,所以图3b的跨层卷积对语义分割任务十分有效。由于GT操作是全局计算,所以论文提出了局部约束(Locality-constrained)的GT操作LGT,如图3c所示,每个\(q_i\)只与高层局部区域的\(k_j\)\(v_j\)进行计算。高层局部区域以\(q_i\)对应的位置为中心,边长(square size)为固定值。如果高层的局部区域越出了特征图,则使用0代替。

    Rendering Transformer

      与GT相反,RT是bottom-up形式的non-local操作,借用低层的细粒度特征来增强高层的粗粒度特征。RT也是局部约束(Locality-constrained)的,以channel-wise进行计算的,定义高层特征为\(Q\),低层特征为\(K\)\(V\),计算步骤包含如下:

    • \(K\)和进行全局平均池化得到权重\(w\)
    • 使用权重\(w\)\(Q\)进行加权得到\(Q_{att}\)
    • \(V\)进行带stride的\(3\times 3\)卷积下采样得到\(V_{dow}\)
    • 使用\(3\times 3\)卷积对\(Q_{att}\)进行调整,并与\(V_{dow}\)相加,再过一层\(3\times 3\)卷积后输出。

      完整RT的定义为:

    \(F_{att}(\cdot)\)为外积函数,\(F_{scov}(\cdot)\)为带stride的\(3\times 3\)卷积,\(F_{conv}(\cdot)\)为用于调整的\(3\times 3\)卷积,\(F_{add}(\cdot)\)为包含\(3\times 3\)卷积的特征相加函数。

    Experiments


      在COCO上与其它算法的对比实验。

      在多个数据集上的进行语义分割性能对比。

    Conclusion


      论文提出用于特征金字塔的高效特征交互方法FPT,包含3种精心设计的特征增强操作,分别用于借鉴层内特征进行增强、借鉴高层特征进行增强以及借鉴低层特征进行增强,FPT的输出维度与输入一致,能够自由嵌入到各种包含特征金字塔的检测算法中,从实验结果来看,效果不错。



    如果本文对你有帮助,麻烦点个赞或在看呗~
    更多内容请关注 微信公众号【晓飞的算法工程笔记】

    work-life balance.

  • 相关阅读:
    [Debug] A strange error encountered today in ROS
    实操 | 安装一台3D打印机
    实操 | Getting started with Baxter Research Robot ...
    学习笔记 | What is Monocular Vision?
    路线图 | Roadmap of SLAM Research
    路线图 | Road-map of Cracking the Coding Interview as a C++ Developer
    实操 | Implementing Cartographer ROS on TurtleBots
    实操 | Implementing Google's Open Source Slam "Cartographer" demos in ROS / rviz
    科技新闻 | Google's Open Source SLAM Library ---- Cartographer
    实操 | Implementing "slam_karto" package on a Freight robot
  • 原文地址:https://www.cnblogs.com/VincentLee/p/15935501.html
Copyright © 2020-2023  润新知