• CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等


    CVPR 2020几篇论文内容点评:目标检测跟踪,人脸表情识别,姿态估计,实例分割等

    CVPR 2020中选论文放榜后,最新开源项目合集也来了。

    本届CPVR共接收6656篇论文,中选1470篇,“中标率”只有22%,堪称十年来最难的一届

    目标检测

    论文题目:

    Bridging the Gap Between Anchor-based and Anchor-free Detection via Adaptive Training Sample Selection

     


    本文首先指出了基于锚点检测与无锚点检测的本质区别,在于如何定义正、负训练样本,从而导致两者之间的性能差距。

    研究人员提出了一种自适应训练样本选择 (ATSS),根据对象的统计特征自动选择正样本和负样本。它显著地提高了基于锚点和无锚点探测器的性能,并弥补了两者之间的差距。

    最后,还讨论了在图像上每个位置平铺多个锚点来检测目标的必要性。

    论文地址:
    https://arxiv.org/abs/1912.02424

    代码:
    https://github.com/sfzhang15/ATSS

    目标跟踪

    论文题目:

    MAST: A Memory-Augmented Self-supervised Tracker

     

     

     

    这篇论文提出了一种密集的视频跟踪模型 (无任何注释),在现有的基准上大大超过了之前的自监督方法(+15%),并实现了与监督方法相当的性能。

    首先通过深入的实验,重新评估用于自监督训练和重建损失的传统选择。其次,通过使用一个重要的内存组件来扩展架构,从而进一步改进现有的方法。而后,对大规模半监督视频对象分割进行了基准测试,提出了一种新的度量方法:可泛化 (generalizability)。

    论文地址:
    https://arxiv.org/abs/2002.07793

    代码:
    https://github.com/zlai0/MAST

    实例分割

    论文题目:

    PolarMask: Single Shot Instance Segmentation with Polar Representation

     

     

     

     

    本文提出了PolarMask方法,是一种single shot的实例分割框架。PolarMask基于FCOS,把实例分割统一到了FCN的框架下。

    FCOS本质上是一种FCN的dense prediction的检测框架,可以在性能上不输anchor based的目标检测方法。

    贡献在于,把更复杂的实例分割问题,转化成在网络设计和计算量复杂度上和物体检测一样复杂的任务,把对实例分割的建模变得简单和高效。

    论文地址:
    https://arxiv.org/abs/1909.13226

    代码:
    https://github.com/xieenze/PolarMask

    NAS

    论文题目:

    CARS: Continuous Evolution for Efficient Neural Architecture Search

     

    在本文中,研究人员开发了一种高效的连续演化方法来搜索神经网络。

    在最近的迭代中,在一个超网中共享参数的种群中的架构,将在具有几个epoch的训练数据集上进行调优。下一个演化迭代中的搜索将直接继承超网和种群,加速了最优网络的生成。进一步采用非支配排序策略,仅保留Pareto前沿的结果,以精确更新超网。

    经过0.4天的GPU连续搜索,可以生成多个模型大小和性能不同的神经网络。这些网络超过了基准ImageNet数据集上最先进方法产生的网络。

    论文地址:
    https://arxiv.org/abs/1909.04977

    代码(即将开源):
    https://github.com/huawei-noah/CARS

    人体姿态估计

    2D人体姿态估计

    论文题目:

    The Devil is in the Details: Delving into Unbiased Data Processing for Human Pose Estimation

     

    所有计算机视觉的任务都需要和数据处理打交道,但在关键点检测问题上,数据处理显得尤为重要。在关键点检测任务上,数据处理尚未被系统的学习,因此这篇文章关注了人体关键点检测问题的数据处理,认为它是算法的一个极其重要的组成部分。

    在系统地分析这个问题的时候,发现现有的所有的state-of-the-art在这个环节上都会存在两个方面的问题:一个是在测试过程中,如果使用flip ensemble时,由翻转图像得到的结果和原图得到的结果并不对齐。另外一个是使用的编码解码(encoding-decoding)方法存在较大的统计误差。

    这两个问题耦合在一起,产生的影响包括:估计的结果不准确、复现指标困难、有较大可能使得实验的结果结论不可靠。

    论文地址:
    https://arxiv.org/abs/1911.07524

    代码:
    https://github.com/HuangJunJie2017/UDP-Pose

    人脸表情识别

    论文题目:

    Suppressing Uncertainties for Large-Scale Facial Expression Recognition

     

     

    本文提出了一种简单而有效的自修复网络(SCN),它能有效地抑制不确定性,防止深度网络对不确定的人脸图像进行过拟合。

    具体来说,SCN从两个不同的方面抑制了不确定性:⑴在小批量上的自关注机制,通过排名规则化对每个训练样本进行加权;⑵重新贴标签机制,在排名最低的组中修改这些样本的标签。

    论文地址:
    https://arxiv.org/abs/2002.10392

    代码(即将开源):
    https://github.com/kaiwang960112/Self-Cure-Network

    3D人体姿态估计

    论文题目:

    VIBE: Video Inference for Human Body Pose and Shape Estimation

    由于缺乏用于训练的ground-truth三维运动数据,现有的基于视频的最先进的方法无法生成准确和自然的运动序列。

    为了解决这个问题,本文提出了身体姿态和形状估计的视频推理(VIBE),它利用了现有的大型动作捕捉数据集(AMASS)和未配对的、in-the-wild 2D关键点注释。

    关键创新是一个对抗性学习框架,它利用AMASS来区分真实的人类动作和由时间姿态、形状回归网络产生的动作。

    论文地址:
    https://arxiv.org/abs/1912.05656

    代码:
    https://github.com/mkocabas/VIBE

  • 相关阅读:
    我对JavaWeb中中文URL编码的简单总结
    URL的编码和解码
    Maven警告解决:Using platform encoding (UTF-8 actually)
    JavaWeb编码浅解
    pageContext对象的用法详述
    JspSmartUpload 简略使用
    Web开发相关笔记 #05# MySQL中文无法匹配
    Web开发相关笔记 #04# WebSocket
    Eloquent JavaScript #02# program_structure
    Eloquent JavaScript #01# values
  • 原文地址:https://www.cnblogs.com/wujianming-110117/p/12494012.html
Copyright © 2020-2023  润新知