语义分割模型优化
Improving Semantic Segmentation via Video Propagation and Label Relaxation
链接地址:https://arxiv.org/abs/1812.01593v1
代码链接:https://nv-adlr.github.io/publication/2018-Segmentation
面前在kitti数据集像素级语义分割中排名第一
摘要
语义分割需要大量的像素注释来学习精确的模型。本文提出了一种基于视频预测的方法,通过合成新的训练样本来扩展训练集,以提高语义分割网络的准确性。利用视频预测模型预测未来帧的能力来预测未来标签。同时提出了一种联合传播策略来减少合成样本中的误码。在由合成样本增强的数据集上训练分割模型可以显著提高准确性。此外,还引入了一种新的边界标签松弛技术,使得训练对目标边界上的噪声和传播伪影具有鲁棒性。提出的方法在城市景观上达到了83.5%和在CamVid上达到了82.9%的最高水平。的单一模型,没有模型集合,在KITTI语义分割测试集上达到72.8%的mIoU,超过了ROB challenge 2018的获奖项目。
1. KITTI上测试
这是KITTI提供所选方法的详细结果。
对于前20个测试图像,显示原始图像、彩色编码结果和错误图像。
错误图像包含4种颜色:
红色:像素有错误的标签和错误的类别
黄色:像素的标签不正确,但类别正确
绿色:像素有正确的标签
黑色:groundtruth标签不用于评估
Test Image 0
Input Image
Prediction
2. Introduction
本文贡献总结如下:
•建议利用视频预测模型将标签传播到相邻帧。
•引入了联合图像标签传播来缓解错误对齐问题。
•建议通过最大化沿边界的类概率联合的可能性来松弛一个热标签训练。这将产生更精确的模型,并允许执行更长的距离传播。
•在分割性能方面,将基于视频预测的方法与基于标准光流的方法进行了比较。
3. Methods
3.1. Video Prediction
视频预测是从前一帧序列中生成下一帧的任务。它可以被建模为直接像素合成或学习转换前一帧像素的过程。在这项工作中,使用一种简单而有效的基于向量的方法来预测运动向量(u,v)将每个像素(x,y)转换为其未来的坐标。
3.2. Joint Image-Label Propagation
联合传播方法可以看作是一种特殊类型的数据增强,因为帧和标签都是通过使用相同的学习转换参数(u,v)来转换过去的帧和相应的标签来合成的。这是一种类似于标准数据增强技术的方法,如随机旋转、随机尺度或随机flip。联合传播使用了一个更基本的转换,该转换被训练用于精确的下一帧预测任务。
3.3. Video Reconstruction
知道实际的下一帧,不仅可以执行视频预测,还可以执行视频重建来合成新的训练示例。更具体地说,可以在前一帧和下一帧上调整预测模型,以便更准确地重建下一帧。这种重新编码的动机是,由于下一帧是由视频重建模型观测的,一般来说,与只观测前一帧的视频预测模型相比,有望产生更好的变换参数。
3.4. Boundary Label Relaxation
提出了一种仅在训练期间应用的类标签空间的修改,它允许在一个边界像素处预测多个类。将边界像素定义为具有不同标记邻居的任何像素。为了简单起见,沿着类A和类B的边界对像素进行分类。建议最大化P(A∪B)的可能性,而不是最大化注释提供的目标标签的可能性。由于A类和B类是互斥的,目标是使A和B的并集最大化:
4. Experiments