(1)结合一阶段二阶段
由单一阶段的算法框架向一阶段二阶段结合的框架发展。
针对二阶段需要密集的尾迹处理才能获得尽可能多的参考箱,既费时又低效和一阶段处理速度快但精度较低的问题,提出将一阶段和二阶段结合的方法解决这个问题,实现在保持高精确度的同时消除较多冗余的效果。如何将一阶段和二阶段的优点结合起来仍然是一个很大的挑战。
CVPR2020阿里达摩院发布《 Structure Aware Single-stage 3D Object Detection from Point Cloud 》,将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中。具体来说,在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,同时在模型推理过程中辅助网络无需参与计算,在保障速度的同时又提高了检测精度。
KITTI测试集的测试结果,预测的边界框显示为绿色。预测被投影到RGB图像上,以获得更好的可视化效果。
(2)视频目标检测
由传统图片目标检测向视频目标检测发展。
针对单帧图片不能连续反映目标运动过程且在视频目标检测中,运动模糊、视频散焦、运动目标模糊、目标运动剧烈、小目标、遮挡、截断等问题,提出视频的运动目标和更复杂数据的目标检测研究,实现在实际生活场景和遥感场景中都表现较好的检测性能。深入研究运动目标和更复杂的数据(视频)是未来研究的重点。
CVPR2020微软亚洲研究院发布《 Memory Enhanced Global-Local Aggregation for Video Object Detection 》,提出了基于记忆增强的全局-局部整合网络(MEGA),它从全局和局部两方面出发,共同解决视频物体检测的问题。先将全局特征整合到局部特征中,以解决无效的问题。后引入了新的长时记忆模块(LRM)来解决整合规模太小的问题。
(3)弱/无监督目标检测算法
由有监督目标检测算法向弱监督/无监督目标检测算法发展。
针对传统有监督方法需要对目标进行大量类和边界盒的标注,工作量大、对样本敏感、处理时间长等问题,提出利用只标注对象类而不标注对象边界盒的高比例图像来代替大量完全标注的图像进行训练,弱监督目标检测利用少量的全标注图像来检测大量的非全标注图像,无监督利用自动标注技术代替人工标注。因此,发展弱监督目标检测方法是一个值得进一步研究的重要问题。
CVPR2020南京大学发布《 Rethinking the Route Towards Weakly Supervised Object Localization》,提出伪监督目标定位方法(PSOL)来解决目前弱监督目标定位方法存在的问题,该方法将定位与分类分开成两个独立的网络,然后在训练集上使用Deep descriptor transformation(DDT)生成伪GT进行训练,整体效果达到SOTA。
CAM图中,黄色框是预测框,红色框是GT框。作者方法图中,蓝盒为DDT预测框,绿盒为回归模型预测盒,红盒为GT框。使用DenseNet161-Sep模型来输出DDT和预测框
(4)多任务学习
由当前单任务学习向多任务学习转变。
针对当前单任务学习检测性能低、信息利用率低等问题,提出将网络中的多个任务聚合在一起,汇聚骨干网的多级特征的多任务学习方法提高检测性能,同时执行多个计算机视觉任务,如目标检测、语义分割、实例分割、边缘检测、高亮检测等,丰富信息可以大幅度提高单独任务的性能。如何保持处理速度和提高精度对研究人员提出了很大的挑战。
CVPR2019伦敦帝国学院发布《 End-to-End Multi-Task Learning with Attention》,提出了一种基于soft-attention模块的多任务学习框架,该框架包括一个主网络用来产生所有任务共享的feature,在此基础上,每个任务通过soft-attention模块从主网络从获取对自己有用的feature进行计算,最后达到多任务计算的效果。
视觉化的第一层七类语义分割和深度估计注意特征。
顶行:语义特征;底行:深度特征。
(5)多源信息辅助
由传统的单一信息来源向多源信息辅助研究转变。
针对传统检测研究信息来源单一的问题,随着社交媒体的普及和大数据技术的发展,多源信息变得容易获取,提出多源信息辅助研究方法,许多社交媒体信息可以提供图片和文字形式的描述,这可以帮助检测任务。随着各种技术的进步,融合多源信息是一个新兴的研究方向。
(6)构建终端检测系统
由云端检测向更可靠高效的终端检测系统发展。
针对云端处理海量信息较慢、可靠性稍差、实时性较差的问题,提出构建终端检测系统的想法,从云端到终端,人工智能的终端化可以帮助人们更好更快的处理海量信息解决问题。随着轻量级网络的出现,终端检测器被发展成为更高效、更可靠、应用场景更广泛的设备。基于FPGA的芯片检测网络将使实时应用成为可能。
(7)航空遥感实时检测
航空遥感图像的广泛应用使得航空遥感实时监测成为热门方向。
针对针对遥感图像行人等目标目标像素非常少,难以与周围背景区分,目标一般非常稀疏且分布不均匀,使得检测效率非常低的问题以及地质调查、生态环境调查、抗震救灾和农业领域都需要精确地分析遥感图像的需求,自动化检测软件和集成硬件将给这些领域带来前所未有的发展,将基于深度学习的目标检测系统加载到片上系统SoC中,实现了对高空的实时检测。
CVPR2019天普大学发布《Clustered Object Detection in Aerial Images》,提出ClusDet集群检测网络,包括集群提议子网络(CPNet),减少最终目标检测块的数量,从而达到运行时间效率高尺度估计子网络(ScaleNet),有效提高小目标检测检测网络(DetecNet),集群proposal隐式利用上下文信息,提高了检测的准确性。
聚类检测被投影到特征映射空间,每个簇被汇集成一个固定大小的特征映射,并通过完全连接层映射成一个特征向量。网络具有每个集群的输出。
(8)基于GAN的目标检测
生成对抗网络的生成假图像的功能使GAN成为目标检测热门方向。
针对基于深度学习的系统往往需要大量的数据进行训练的需求,利用生成对抗网络生成假图像的强大功能,生成大量数据样本,实现数据扩充。将真实场景与GAN训练目标检测器生成的仿真数据混合,使检测器具有更强的鲁棒性和泛化能力。
CVPR2020年涉及GAN网络的应用文章至少22篇以上。香港中文大学对已经训练好的GAN进行编辑,训练超平面,将图像的特征和latent code对应起来,通过编辑潜码距离超平面的距离来控制图像的特征信息;Facebook利用已经训练好的styleGAN网络,生成和单张目标图片具有相同分布图像,实现数据集扩增;东北大学(美)利用条件WGAN实现特征的合成,进而实现分类的数据集扩增。
改变GAN模型的潜来操纵各种面部属性。第一列PGGAN的原始合成,其他每列都显示操作特定属性的结果。