• 2018年3月15日论文阅读


    国内暂时泛读!title(13):基于纹元森林和显著性先验的弱监督图像语义分割方法---20171228

    摘要:弱监督语义分割任务常利用训练集中全体图像的超像素及其相似度建立图模型,使用图像级别标记的监督
    关系进行约束求解。全局建模缺少单幅图像结构信息,同时此类参数方法受到复杂度限制,无法使用大规模的弱监
    督训练数据。针对以上问题,该文提出一种基于纹元森林和显著性先验的弱监督图像语义分割方法。算法使用弱监
    督数据和图像显著性训练随机森林分类器用于语义纹元森林特征(Semantic Texton Forest, STF)的提取。测试时,
    先将图像进行过分割,然后提取超像素语义纹元特征,利用朴素贝叶斯法进行超像素标记的概率估计,最后在条件
    随机场(CRF)框架下结合图像显著性信息定义了新的能量函数表达式,将图像的标注(labeling)问题转换为能量最
    小化问题求解。在 MSRC-21 类数据库上进行了验证,完成了语义分割任务。结果表明,在并未对整个训练集建立
    图模型的情况下,仅利用单幅图像的显著性信息也可以得到较好的分割结果,同时非参模型有利于规模数据分析。

    关键词:语义分割;弱监督学习;显著性检测;语义纹元森林;条件随机场

    1  引言

    图像语义分割常作为强监督学习任务来研究,利用像素和标记之间的监督关系训练分类器,对测试图像的每一个像素预测一个后验概率最大的类。其学习过程使用的训练数据需要像素级别的强监督关系,即:训练图像中每一个像素对应一个唯一标记(label)。这种数据获取非常困难,需要人工标注,限制了获取训练数据的规模,同时也会带来人为的强监督偏见[1]。与此同时,网络上存有大量的带有图像级别标记的数据资源未被充分利用。所以利用这些弱监督关系的数据来实现语义分割成为计算机视觉领域一个新的课题[2−11]。弱监督语义分割学习任务中,使用仅有图像级别标记的数据进行训练。训练图像中仅指明了有什么物类,而并没有告诉哪些像素属于哪一类,学习的目标同样是为每一个像素分配一个标记,即:从像素或超像素角度看,是由一对多的弱监督关系学习得到一对一的强监督关系。正是这种监督关系的不对称性,使学习更加困难,准确地预测也成为较大的挑战。

    近年来,国内外研究者对弱监督条件下的语义分割问题进行了一些研究[2−11],这些工作可以大概分成 3 类:基于分类器弱化的方法、基于聚类的方法和其他方法。

    基于分类器弱化的方法从弱化监督数据的角度出发,将带有某标记的图像中所有像素或者超像素均做为该标记的正样本,无此标记的图像中所有像素或者超像素做为负样本,直接进行分类器的训练,并使用弱监督关系和某些假设定义正则化约束项,通过寻优找到最佳的分类器。弱监督分类器、条件随机场(CRF)和一部分深度学习算法均可归于此类。如微软研究院的 Shotton 等人[6]使用弱监督数据训练随机森林分类器得到语义纹元森林(STF)特征进行语义分割,此方法提出了一种非常快速且辨别力较好的纹理特征,但是忽略了图像内像素的结构信息,导致分割不光滑,匀质区域内有较大噪声。复旦大学学者提出了使用子空间稀疏重建的方法在弱监督框架下寻找有效的 SVM 分类器[3],其本质上是利用带噪声的训练数据来训练 SVM,使用子空间重建的方法来去噪,通过迭代法寻优,但是其使用的子空间假设过于简单易碎。瑞士苏黎世大学的视觉组在弱监督框架下对自然图像语义分割进行了研究,提出了多图结构(MIM)来分析图像语义[8],在训练集中建立一个较大的图模型进行全局推断,其优点是可以在图像内部和图像之间对外观相似的超像素关系进行建模。但利用表观信息在整个训练集中搜索近邻关系的同时,却忽略了单幅图像空间超像素的邻接结构关系。此外,利用整个训练集中全体图像的超像素作为节点建图,会导致关系图的规模是节点数的平方,训练数据规模较大时学习困难,不能有效利用弱监督学习的优势。随着深度学习的研究热潮,部分工作使用深度学习的方法进行弱监督条件下的语义分割[12−14],由于其强大的特征表示能力,弱化的分类器也能达到较好的效果,但通常会使用在大规模强监督数据集中训练得到的深度模型参数作为初始化值。

    基于聚类的方法假设相同语义标记的超像素特征距离较近而不同语义标记的超像素特征距离较远。聚类完成后,利用弱标记信息为聚类得到的类簇加上标记。中科院自动化所模式识别实验室(NLPR)的学者基于两种聚类算法完成了弱监督下的图像语义分割。浙江大学的视觉交互与媒体计算课题组在弱监督数据下研究了超像素空间结构特征,利用 GMM 学习其分布,提出了概率小图割(Probabilistic Graphlet Cut, PGC)算法[2],同时使用标记转移的方法研究了弱监督下视频图像的分割。而文献[11]则在聚类数据的特征表达方面进行了研究。利用聚类方法进行弱监督语义分割是最朴素的想法,但是聚类中心的确定、聚类方法的准确性及类簇标记的确定等问题一直未得到很好的解决。其他方法包括结构预测[15]和矩阵补齐[16]的方法等。

    本文在弱监督条件下,将图像的显著性作为一种结构信息,使用随机森林学习语义纹元森林 STF (Semantic Texton Forest, STF)特征,并将二者在条件随机场中融合,进行了语义分割研究。本文主要有 3 个贡献:(1)将显著性信息用于弱监督语义分割任务,并提出了新的能量函数一元势项。(2)提出了使用超像素块进行纹理特征描述,提高了语义纹元森林特征的表示力。(3)使用显著性协同弱监督数据训练非参数模型,未在全局弱监督标记关系下建模,仍得到了较好的分割结果。

    2 本文提出的弱监督学习算法

    本文针对弱监督语义分割中利用整个训练集建模所存在的问题,从挖掘单幅图像结构信息出发,基于纹元森林和显著性两种重要的特征,提出了一种新的弱监督语义分割方法,图 1 所示。

    训练时,使用弱监督数据和图像显著性信息共同训练随机森林分类器,该分类器用于 STF 特征的提取。测试时,首先将测试图像 a 进行超像素分割得到 c,然后计算超像素 c 的 STF 特征并通过朴素贝叶斯学习得到概率输出 d;同时,并行地计算图像 a 的显著性 b,最后在 CRF 框架下,将二元显著性概率 b 和多元类概率 d 相融合,在能量函数中提出了一种新的一元势项,通过能量函数最小化求解为每个超像素分配最佳标记,得到语义分割结果 e。

    2.1  能量函数


    条件随机场(CRF)是语义分割中常用的一个框架,既可以用于强监督学习也可以用于弱监督学 习[4,8,10]。以图像像素或者超像素为节点,节点之间的特征相似性为权重,通过节点之间的邻接关系建立图模型,CRF 能量函数的一般形式为:

    P 代表图的顶点集(像素或者超像素), N 表示邻域集, p,q 为 P 中的元素,f p表示点 p 对应的标记;Dp( fp)为 数 据 项 , 也 称 一 元 势 函 数(unary potential)一般表示为分类器的概率输出的负对数,此项描述了基本分类器的分类结果。光滑项为V p,q ,也称成对势函数(pairwise potential),一般作为邻域节点期望关系的惩罚项。而整个标注过程则

    转换为求能量E(f)的最小值问题进行求解。

    的函数。式(2)右边第 1 项为一元势函数项,是对超像素属于某一个类别标记的概率表示,任意有概率输出的分类器均可以作为一元势函数项使用。第 2项为成对势函数项,该项鼓励 CRF 空间上邻接的节点获得相同的标记。参数 α ∈[0,1] 用于平衡一元势和成对势函数对总能量的贡献,当 α =0 时,CRF中顶点邻域关系对总能量贡献为 0,标注任务退化为分类任务,此时总能量仅取决于数据项,图模型中节点的标记取最大概率输出的类即可。

    2.2  一元势函数
    近年来,显著性检测工作更注重检测物体级别的显著性,这一特性可以很好地应用在弱监督语义分割任务中,本文基于高显著性区域是前景的可能性大这一假设,将显著性信息同分类器进行融合,提出了新的一元势函数,描述如式(3):

    输出。

    ……

    5 结束语

    模型选择和特征提取是弱监督语义分割中两个重要的问题,模型选择方面,随机森林这类非参数模型可以较好地应用于大规模数据,而全局建图受限于模型的参数规模。特征提取方面,图像外观信息和内部上下文信息同样是重要的分类依据。本文结合基于STF随机森林特征和图像显著性信息提出的弱监督语义分割算法,在 MSRC 测试集上验证了其有效性。但该工作仍有两个问题需要进一步研究,一是能量函数的结构学习问题,即式(2)中参数α 和式(4)中参数 β 如何选择。二是显著性结构信息的使用只提出了一种硬结合的方法,而参数向量fgw 和bgw 的值可以由其他方法得到在[0 1]内连续的取值来获得一个软结合的方法。
    国外泛读!title(14):Boundary-aware Instance Segmentation(边界感知实例分割)---CVPR2017

    abstract:我们解决实例级语义分割问题,其目的在于联合检测,分割和分类图像中的每个单独对象。在这种情况下,现有方法通常提出候选对象,通常作为边界框,并直接预测每个此类提议中的二进制掩码。因此,它们无法从对象候选生成过程中的错误中恢复,例如太小或移位的框。

    在本文中,我们基于对象掩码的距离变换引入了一种新颖的对象分割表示方法。然后我们用一个新的残差去卷积结构来设计一个对象掩模网络(OMN),该体系结构推断出这种表示并将其解码为最终的二进制对象掩码。这使我们能够预测超出边界框范围的掩模,从而对不准确的候选对象也是鲁棒的。我们将我们的OMN集成到多任务网络级联框架中,并以端对端的方式学习所产生的边界感知实例分段(BAIS)网络。我们在PAS-CAL VOC 2012和Cityscapes数据集上进行的实验证明了我们方法的优势,该方法在对象建议生成和实例分割方面均优于最新技术。

    introduction:实例级语义分割目的是对图像中的每个单独对象进行联合检测,分割和分类,这在场景理解中最近已经成为挑战[5,23,9]。 与类别级别的分割不同,实例分割提供了有关各个对象的位置,形状和数量的详细信息。 因此,它在不同领域有很多应用,如自动驾驶[35],个人机器人[12]和工厂分析[30]。

    科普一下:语义分割与实例分割的区别

    目前的分割任务主要有两种:

    (1)像素级别的语义分割

    (2)实例分割

    顾名思义,像素级别的语义分割,对图像中的每个像素都划分出对应的类别,即实现像素级别的分类; 
    而类的具体对象,即为实例,那么实例分割不但要进行像素级别的分类,还需在具体的类别基础上区别开不同的实例。比如说图像有多个人甲、乙、丙,那边他们的语义分割结果都是人,而实例分割结果却是不同的对象,具体如下图所示:

    国外暂时泛读!title(15):CASENet: Deep Category-Aware Semantic Edge Detection(CASENet:深度分类感知语义边缘检测)---CVPR2017

    文章说的是语义边缘检测,可用于图像语义分割。和弱监督的语义分割之间或许有值得借鉴与关联之处。

    abstract:本文主要是给出一个类别感知的语义边缘检测算法。传统的边缘检测本身就是一个具有挑战性的二元问题,相比之下类别感知的语义边缘检测是一个更具有挑战性的多元问题。因为边缘像素出现在属于两个或更多个语义类的轮廓或连接点中,所以本文对每个边缘像素与至少两个类别相关联这个问题进行建模,并提出了一种新的基于ResNet的端到端深度语义边缘学习架构,以及新的跳跃结构,其中顶层卷积层上的类别边缘特征进行共享并与同一组底层特征进行融合。最后,提出了一个多类别的损失函数来监督特征的融合。

    上图是CItyscapes数据集中的一张道路图,其中有几类物体,比如:建筑、地面、天空和汽车等等。其中位于建筑物和杆轮廓上的边缘像素可以与这两个类别都相关联。在上图中对边界进行了可视化,列出了典型的类别组合的颜色,如“建筑+杆”和“道路+人行道”。在本文的问题中,每个边缘像素由一个向量表示,其中向量的每个元素表示该像素与不同语义类别之间的关联程度。虽然大多数边缘像素只与两个类别对象相关联,但在路口的情况下,可能边缘像素与三个甚至更多的类别像素相关联。因此,不限制一个像素可以关联的类别对象的数量,这也奠定了本文是作为一个多标签学习问题来进行研究的。

     

    在本文中,提出了CASENet,一个能够检测类别感知语义边缘的深度网络。给定K个语义类别,网络实际上产生K个独立的边缘图,其中每个图表示某个类别的边缘概率。上图分别给出了测试图像的边缘图。

    本文的工作与HED(下面会介绍)同样采用了嵌套体系结构,但是将问题扩展到更困难的类别感知语义边缘检测问题上。其中主要贡献如下:

    1. 为了解决边缘分类,提出了一种多类别的学习框架,比传统的多类框架更好地学习边缘特征。

    2. 提出了一个新的嵌套结构,在ResNet上不使用深监督,其中底部的特征用于加强顶部的分类。本文还发现深监督对该问题没有益处(深监督可以参考DSN的结构,即对每一个侧面的输出都进行监督学习)。

    一、问题描述:

    给定输入图形,其目标是基于预定义类别计算相对应的语义边缘图。对于输入图像I和语义类别K,可以获得K个边缘图left{ Y_{1},...,Y_{K} 
ight} ,其中每个边缘图的大小与输入图像I大小相同。网络中带有参数W,把Y_{k}left( p|I,W 
ight) in left[ 0,1 
ight] 作为网络输出,该式表示像素p的第k个语义类别的边缘概率。

    多类别的损失函数

    可能由于语义分割的多类性质的原因,关于类别感知语义边缘检测的几个相关文章都是从多类学习的角度来研究问题(一个object属于一个label)。本文认为这个问题本质上应该允许一个像素同时属于多个类别的,并且应该由多标签学习框架来解决。

    因此,我们提出多标签损失。假设每个图像I都有一组标签图像left{ ar{Y} _{1},...,ar{Y}_{K} 
ight} ,其中ar{Y}_{k} 表示第K类语义边缘的真值。多类别损失函数表示为下式:

    Lleft( W 
ight) =sum_{k}{L_{k}left( W 
ight) } =sum_{k}{sum_{p}{left{ -eta ar{Y}_{k}left( p 
ight)logY_{k}left( p|I;W 
ight)-left( 1-eta 
ight)  left( 1-ar{Y}_{k}left( p 
ight) 
ight)logleft( 1- Y_{k}left( p|I;W 
ight)
ight)     
ight} } }

    其中eta 是图像中非边缘像素占样本数偏度的百分比(这个偏度我也不是很懂)。

    二、网络框架:

    本文提出了CASENet,一种端到端可训练的卷积神经网络(CNN)架构(如图c所示)来解决类别感知语义边缘检测。在描述CASENet之前,首先提出两种可选的网络架构,尽管这两种架构也可以检测出边缘,但是都有一些无法解决的问题,本文通过提出CASENet架构来解决这些问题。

    基本网络:

    本文采用ResNet-101框架,通过删除原来的平均池和完全连接的层,并保留底层卷积。 为了更好地保留低级边缘信息,进一步修改基本网络。本文将ResNet-101中的第一和第五卷积层(上图中的“res1”和“res5”)的步长大小从2变为1。将扩张因子(dilation)引入后续的卷积层,以保持与 原来的ResNet相同大小的感受野。

    基本结构:

    在上面提出的基本网络的顶层,添加一个分类模块(图d),一个1×1卷积层后面加一个双线性上采样(由K组反卷积层去实现)以产生K个激活图left{ A_{1},...,A_{K} 
ight} ,每个都与图像大小相同。 然后,由公式(多类别损失函数中的公式)中Y_{k}left( p 
ight) =sigma left( A_{k}left( p 
ight)  
ight) 给出的sigmoid单元来计算一个像素属于第K类边缘的概率。

    深监督框架:

    全局嵌套边缘检测(HED)网络的是一个有深监督的嵌套架构。基本思想是除了顶部的网络损失之外,也计算底部卷积层造成的损失。另外,通过监督侧面激活的线性组合来获得融合边缘图。

    HED仅执行二进制的边缘检测。本文扩展了这种框架,用于处理K个通道的侧边输出的和K个通道的最终输出。如图b,这里称其为深度监督网络(DSN)。在该网络中,将之前描述的分类模块连接到每个残差块的输出,产生5个侧边分类激活图left{ A_{1},...,A_{5} 
ight} ,其中每个激活图都有K个通道。然后通过切片级联层(图g中颜色表示通道下标)来融合这5个激活图,以产生5×K个通道的激活图:

    A^{f}=left{ A_{1}^{left( 1 
ight) },...,A_{1}^{left( 5 
ight) } ,A_{2}^{left( 1 
ight) },...,A_{2}^{left( 5 
ight) } ,...,A_{K}^{left( 5 
ight) }
ight}

    A^{f}被送入融合分类层进行K组的1×1卷积(图f)以产生K通道激活图A^{left( 6 
ight) }。 最后,使用公式(多类别损失函数中的公式)基于left{ A^{left( 1 
ight) },...,A^{left( 6 
ight) } 
ight} 计算6个损失函数,对网络进行深监督。

    这里的连接采用切片级联和组卷积的原因如下:由于5个侧面激活是被监督的,所以限制侧面激活的每一个通道,以使它带来与相应类最相关的信息。

    通过切片连接和分组卷积,像素p的融合激活由下式给出:

    A_{k}^{left( 6 
ight) }=W_{k}^{T}left[ A_{k}^{left( 1 
ight) }left( p 
ight)^{T},...,A_{k}^{left( 5 
ight) }left( p 
ight)^{T}  
ight]

    这基本上集成了来自不同尺度的相应类的激活作为最终融合的激活,同样地,本文也使用了这种设计。

    CASENet框架:

    在介绍完基本框架和DSN框架后,发现类别感知语义边缘检测任务中存在几个潜在的问题:

    第一,底部的感受野是有限的。因此,由于早期的网络给出的语义分类是不合理的,所以给出上下文信息在语义分类中起着重要作用。本文认为,语义分类应该在顶部发生,其中特征由高级信息进行编码。

    第二,底面侧面特征有助于增强顶级分类,抑制非边缘像素并提供详细的边缘定位和结构信息。因此,在边缘检测中应该考虑到它们。

    本文提出的CASENet架构(图c)是可以解决上述问题的。该网络采用嵌套架构,在某种程度上与DSN有些相似,但也包含了几个关键的改进。总结这些改进如下:

    1. 将底部的分类模块更换为特征提取模块。

    2. 将分类模块放在网络的顶部,并进行监督。

    3. 执行共享级联(图h),而不是切片级联。

    侧面特征提取和侧面分类之间的区别在于前者仅输出单通道特征图F^{left( j 
ight) }而不是K类激活图。共享级联从Side 1-3复制底层特征F=left{ F^{left( 1 
ight) },F^{left( 2 
ight) },F^{left( 3 
ight) } 
ight} 并分别连接到K个顶部激活中的每个激活:

    A^{f}=left{ F,A_{1}^{left( 1 
ight) },F,A_{2}^{left( 5 
ight) } ,F,A_{3}^{left( 5 
ight) },...,F,A_{K}^{left( 5 
ight) }
ight}

    将所产生的连接激活图再次送入到有K组卷积的融合分类层中以产生K通道激活图A^{left( 6 
ight) }

    一般来说,CASENet可以被认为是一个联合边缘检测和分类网络,通过让低级特征参与,并通过跳跃结构来增强更高层次的语义分类。

    国外泛读!title(16):Convolutional Random Walk Networks for Semantic Image Segmentation(用于语义图像分割的卷积随机游走网络)---CVPR2017

    abstract:目前大多数语义分割方法都依赖于全卷积网络(FCN)。然而,它们大的感受野和大量池化层的使用导致深层内的低空间分辨率。这使得边界定位预测效果不佳。先前的工作试图通过CRF或MRF的后处理预测来解决这个问题。但是这样的模型通常不能捕获对象之间的语义关系,这导致了与空间不相关的预测。为了克服这些问题,最近的方法将CRF或MRF集成到FCN框架中。 这些新模型的缺点是它们比传统的FCN复杂得多,这使得训练和测试更具挑战性。

    在这项工作中,我们介绍了一个简单而有效的卷积随机游走网络(RWN),它解决了边界定位不佳和空间分散的预测问题,但模型复杂度增加很少。我们提出的RWN共同优化了像素亲和性和语义分割的目标。它通过一个新的随机漫步层将这两个目标结合起来,在网络的深层实施一致的空间分组。 我们的RWN是使用标准卷积和矩阵乘法实现的。这使得它可以轻松集成到现有的FCN框架中,并通过标准的反向传播实现整个网络的端到端训练。与传统的FCN相比,我们的RWN实现仅需要131个附加参数,对FCN在语义分割和场景标记方面提供了改进与帮助。

     

  • 相关阅读:
    深入理解JavaScript系列(15):函数(Functions)
    深入理解JavaScript系列(8):S.O.L.I.D五大原则之里氏替换原则LSP
    深入理解JavaScript系列(2):揭秘命名函数表达式
    深入理解JavaScript系列(3):全面解析Module模式
    深入理解JavaScript系列(21):S.O.L.I.D五大原则之接口隔离原则ISP
    深入理解JavaScript系列(18):面向对象编程之ECMAScript实现(推荐)
    理解Javascript_13_执行模型详解
    深入理解JavaScript系列(6):S.O.L.I.D五大原则之单一职责SRP
    深入理解JavaScript系列(7):S.O.L.I.D五大原则之开闭原则OCP
    深入理解JavaScript系列(11):执行上下文(Execution Contexts)
  • 原文地址:https://www.cnblogs.com/ariel-dreamland/p/8571727.html
Copyright © 2020-2023  润新知