• 大盘点!CVPR 2020目标检测论文精选


    本文为学习笔记

    参与:王博kings,Sophia

    最近结束的CVPR 2020在推动物体检测方面做出了巨大贡献。在本文中,我们将介绍一些特别令人印象深刻的论文。

    1、A Hierarchical Graph Network for 3D Object Detection on Point Clouds(用于点云3D目标检测的分层图网络)

    HGNet包含三个主要组件:

    • 基于GConv的U形网络(GU-net)
    • 提案生成者
    • 提案推理模块(ProRe Module)-使用完全连接的图对提案进行推理

    图片

    作者提出了一种注重形状的GConv(SA-GConv),以捕获局部形状特征。这是通过对相对几何位置进行建模以描述对象形状来完成的。

    图片

    基于SA-GConv的U型网络可捕获多级功能。然后将它们通过投票模块映射到相同的特征空间,并用于生成建议。下一步,基于GConv的提案推理模块使用提案来预测边界框。

    以下是在SUN RGB-D V1数据集上获得的一些性能结果。

    图片

    2、HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection(HVNet:基于激光雷达的三维物体检测的混合体素网络)

    在本文中,作者提出了混合体素网络(HVNet),这是一个用于基于点云的3D对象检测自动驾驶的一级网络。

    图片

    本文中使用的体素特征编码(VFE)方法包含三个步骤:

    • 体素化—将点云分配给2D体素网格
    • 体素特征提取-计算与网格相关的逐点特征,该点特征被馈送到PointNet样式特征编码器
    • 投影-将逐点特征聚合到体素级特征并将其投影到其原始网格。这形成伪图像特征图

    图片

    体素的大小在VFE方法中非常重要。较小的体素尺寸可以捕获更精细的几何特征。它们也更擅长对象本地化,但推理时间更长。使用较粗的体素可以获得更快的推理速度,因为这会导致较小的特征图。但是,它的性能较差。

    作者提出了混合体素网络(HVNet),以实现细粒度体素功能的利用。它由三个步骤组成:

    • 多尺度体素化-创建一组特征体素尺度并将它们分配给多个体素。
    • 混合体素特征提取-计算每个比例的体素相关特征,并将其输入到关注特征编码器(AVFE)中。每个体素比例尺上的要素都是逐点连接的。
    • 动态要素投影-通过创建一组多比例项目体素将要素投影回伪图像。

    图片

    这是在KITTI数据集上获得的结果。

    图片

    3、Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud(Point-GNN:用于点云中3D对象检测的图神经网络)

    本文的作者提出了一种图神经网络-Point-GNN-从LiDAR点云中检测物体。网络预测图形中每个顶点所属的对象的类别和形状。Point-GNN具有自动回归机制,可以一次检测多个物体。

    所提出的方法包括三个部分:

    • 图形构建:体素降采样点云用于图形构建
    • T迭代的图神经网络
    • 边界框合并和评分

    图片

    以下是在KITTI数据集上获得的结果:

    图片

    代码:https://github.com/WeijingShi/Point-GNN

    4、Camouflaged Object Detection

    本文解决了检测嵌入在其周围环境中的物体的挑战-伪装物体检测(COD)。作者还介绍了一个名为COD10K的新数据集。它包含10,000张图像,覆盖许多自然场景中的伪装物体。它具有78个对象类别。图像带有类别标签,边界框,实例级别和消光级别的标签注释。

    图片

    图片

    作者开发了一种称为搜索标识网络(SINet)的COD框架。该代码在这里可用:

    https://github.com/DengPingFan/SINet/

    网络有两个主要模块:

    • 搜索模块(SM),用于搜索伪装的物体
    • 用于检测物体的识别模块(IM)

    图片

    以下是在各种数据集上获得的结果:

    图片

    5、Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector

    本文提出了一个短时目标检测网络,该网络的目标是检测不可见类别的目标,并带有一些注释示例。

    他们的方法包括注意RPN,多重关系检测器和对比训练策略。该方法利用少拍支持集和查询集之间的相似性来标识新对象,同时还减少了错误标识。作者还贡献了一个新的数据集,其中包含1000个类别,这些类别的对象具有高质量的注释。https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

    该网络体系结构由一个权重共享框架组成,该框架具有多个分支-一个分支是查询集,其余分支用于支持集。权重共享框架的查询分支是Faster R-CNN网络。

    图片

    作者介绍了带有多关系模块的注意力RPN和检测器,以在支持和查询中的潜在框之间产生准确的解析。

    图片

    以下是在ImageNet数据集上获得的一些结果。

    图片

    以下是在许多数据集上获得的一些观察结果。

    图片

    6、D2Det: Towards High-Quality Object Detection and Instance Segmentation

    本文的作者提出了D2Det,一种解决精确定位和精确分类的方法。他们引入了密集局部回归,可以预测对象提案的多个密集框偏移。这使他们能够实现精确的定位。

    作者还介绍了区分RoI池方案,以实现准确的分类。合并方案从提案的几个子区域进行采样,并执行自适应加权以获得区别特征。

    该代码位于:https://github.com/JialeCao001/D2Det

    该方法基于标准的Faster R-CNN框架。在这种方法中,Faster R-CNN的传统盒偏移回归被提议的密集局部回归所替代。在该方法中,通过判别式RoI池增强了分类。

    图片

    在两阶段方法中,第一阶段使用区域提议网络(RPN),第二阶段使用单独的分类和回归分支。分类分支基于判别池。局部回归分支的目标是对象的精确定位。

    图片

    以下是在MS COCO数据集上获得的结果:

    图片
    链接:https://heartbeat.fritz.ai/cvpr-2020-the-top-object-detection-papers-f920a6e41233

    编辑:Sophia | 王博(Kings)笔记
    计算机视觉联盟 报道 | 公众号 CVLianMeng

  • 相关阅读:
    Windows Phone 7之初体验(三.开发问答(转发))
    Windows phone 7 之初体验(一.安装Windows phone 7 sdk)
    python 程序的性能分析优化(huffman编码程序性能分析的一个小结论)
    图的深度优先遍历,及常见的扩展算法
    递归回溯与迭代回溯算法框架,打印在n个数字中取k个数字的所有可能
    python 实现的范式huffman压缩,解压缩
    <读书笔记> Thinking in python (Python 设计模式) 3. Proxy and State模式
    二分查找极其变形算法
    <读书笔记> Thinking in python (Python 设计模式) 1. Singlton的c++与python的实现
    <转载>openmesh文档的非专业翻译by kidux(学习generative programming非常好的库)
  • 原文地址:https://www.cnblogs.com/CVLianMeng/p/13304824.html
Copyright © 2020-2023  润新知