简要介绍弱监督学*


    by 南大周志华




    1 概述



    弱监督学*是一个总括性的术语,它涵盖了试图通过较弱的监督来构建预测模型的各种研究。在本文中,我们将会讨论这一领域的一些进展,重点放在不完全、不确切和不准确的监督条件下进行的学*。我们会分别讨论这三种情形,但是值得指出的是,在实际操作中,它们常常同时出现。为了简便起见,在本文中我们考虑有两个可交换的类别Y、N的二分类问题。形式化表达为,在强监督条件下,监督学*任务就是从训练数据集D = {(x_1, y_1), …, (x_m, y_m)}中学* f: X -> Y , 其中X是特征空间,Y = {Y, N}, x_i 属于X, y_i 属于Y。

    我们假设 (x_i, y_i) 是根据未知的独立同分布D生成的。换言之,是 i.i.d. 样本。



    2 不完全监督

    不完全监督是指训练数据中只有一小部分数据有标签,而大部分数据没有标签,且这一小部分有标签的数据不足以训练一个好的模型。形式化表达为,模型的任务是学*:f: X -> Y,训练数据为:D = {(x_1, y_1), …, (x_l, y_l), x_{l+1}, …, x_m}, 即有l个数据有标签(如y_i所示),u = m-l 个数据没有标签,其他条件与强监督学*(如摘要最后的定义)相同。为便于讨论,我们将l个已经标注的数据记为「标注数据」,u个没有标签的数据称为「未标注数据」。

    有两种主要的技术能够实现此目的,即主动学*(active learning)【2】和半监督学*(semi-supervised learning)【3-5】。

    主动学*假设有一个「神谕」(oracle),比如人类专家,可以向它查询所选未标注数据的真值标签。相比之下,半监督学*试图在没有人为干预的前提下,自动利用已标注数据、以及未标注数据来提升学*性能。有一种特殊的半监督学*,称为直推式学*(transductive learning),它与(纯)半监督学*之间的差别在于,对测试数据(训练模型要预测的数据)的假设不同。直推式学*持有“封闭世界”的假设,即测试数据是事先给定的,且目标就是优化模型在测试数据上的性能;换句话说,未标注数据就是测试数据。纯半监督学*持有“开放世界”的假设,即测试数据是未知的,且未标注数据不一定是测试数据。图2直观的表示了主动学*、(纯)半监督学*、直推学*之间的区别。

    图2: 主动学*、(纯)半监督学*以及直推学*。

    2.1 有人为干预



    不确定抽样(uncertainty sampling)和投票询问(query-by-committee)是基于信息量的典型方法。前者训练单个学*器,选择学*器最不确信的样本向先知询问标签信息【7】。后者生成多个学*器,选择各个学*器争议最大的样本向先知询问标签信息【8,9】。基于代表性的模型通常的目标是用聚类方法来挖掘未标注数据的集群结构【10,11】。


    关于主动学*有很多理论性的研究。例如,已经证明对于可实现(realizable)情况(假设数据在假设的空间中完全可分),随着样本复杂性的增加,主动学*的性能可以获得指数提升【13,14】。对于不可实现(non-realizable)的情况(即由于噪声的存在,以致数据在任何假设下都不完全可分),在没有对噪声模型的先验假设时,主动学*的下确界相当于被动学*的上确界,换句话说,主动学*并不是非常有用。当假设噪声为Tsybakov噪声模型时,我们可以证明,在噪声有界的条件下,主动学*的性能可呈指数级提升【16,17】;如果能够挖掘数据的一些特定性质,像多视角结构(multi-view structure),那么即使在不对噪声进行限制的情况下,其性能也能呈指数级提升【18】。换句话说,只要设计得巧妙,主动学*在解决困难问题时仍然有用。

    2.2 无人为干预 

    半监督学*【3-5】是指在不询问人类专家的条件下挖掘未标注数据。为什么未标注数据对于构建预测模型也会有用?做一个简单的解释【19】,假设数据来自一个由n个高斯分布混合的高斯混合模型,也就是说:f(x | heta) = sum_{j=1}^n alpha_j f(x | heta_j)  (1)其中alpha_j为混合系数,sum_{j=1}^n alpha_j = 1 并且 heta = { heta_j} 是模型参数。在这种情况下,标签y_i可以看作一个随机变量,其分布 P(y_i | x_i, g_i)由混合成分g_i和特征向量x_i决定。最大化后验概率有:h(x) = argmax_c sum_{j=1}^n P(y_i = c | g_i = j, x_i) imes P(g_i = j | x_i) (2)。其中:P(g_i = j | x_i) = frac{alpha_j f(x_i | heta_j)}  {sum_{k=1}^n alpha_k f(x_i | heta_k)}  (3)

    h(x)可以通过用训练数据估计 P(y_i = c | g_i = j, x_i) 和 P(g_i = j | x_i) 来求得。很明显只有第一项需要标签信息。因此,未标注数据可以用来估计提升对第二项的估计,从而提升学*模型的性能。

    图3: 未标注数据的作用。


    实际上,在半监督学*中有两个基本假设,即聚类假设(cluster assumption)和流形假设(manifold assumption);两个假设都是关于数据分布的。前者假设数据具有内在的聚类结构,因此,落入同一个聚类的样本类别相同。后者假设数据分布在一个流形上,因此,相*的样本具有相似的预测。两个假设的本质都是相似的数据输入应该有相似的输出,而未标注数据有助于揭示出样本点之间的相似性。 

    半监督学*有四种主要方法,即生成式方法(generative methods),基于图的方法(graph-based methods),低密度分割法(low-density separation methods)以及基于分歧的方法(disagreement methods)。



    图4: SVM和S3VM的不同分类界面,SVM只考虑标注数据(“+/-”点),S3VM既考虑标注数据也考虑未标注数据(灰色点)。





    3 不确切监督


    形式化表达为,这一任务是学* f: X -> Y ,其训练集为 D = {(X_1, y_1), …, (X_m, y_m)},其中 X_i = {x_{I, 1}, …, x_{I, m_i}}, X_i属于X,且被称为一个包(bag),x_{i, j}属于X,是一个样本(j属于{1, …, m_i})。m_i是X_i中的样本个数,y_i属于Y = {Y, N}。当存在x_{i, p}是正样本时,X_i就是一个正包(positive bag),其中p是未知的且p属于{1, …, m_i}。模型的目标就是预测未知包的标签。这被称为多示例学*(multi-instance learning)【40,41】。



    图5: 图像包生成器。假设每张图片的尺寸为8*8个像素,每个小块的尺寸为2*2个像素。单块(Single Blob, SB)以无重叠地滑动的方式,会给一个图片生成16个实例,即每个实例包含4个像素。领域单块(SBN)以有重叠地滑动的方式,则会给每一个图片生成9个实例,即每个实例包含20个像素。

    多示例学*的原始目标是预测未知包的标签;但有研究试图识别使得正包为正的关键示例(key instance)【31,60】。这对于有些任务是很有用的,例如在没有精细标注的图像数据中寻找感兴趣的区域。值得注意的是,标准的多示例学*【40】假设每个正包都必须包含一个关键示例,而有的研究则假设没有关键示例,每个示例都对包的标签有贡献【61,62】,或甚至假设有多个概念,仅当包中示例同时满足所有概念时才是正包【63】。在【41】中可以找到更多变体。


    4 不准确监督


    一个典型的情况是在标签有噪声的条件下学*【68】。已有很多相关理论研究【69-71】,这些研究大多都假设存在随机类型的噪声,即标签受制于随机噪声。在实际中,一个基本的想法是识别潜在的误分类样本【72】,而后进行修正。例如,数据编辑(data-editing)方法【73】构建了一个相对邻域图,其中的每个节点对应一个训练样本,连接标签不同的两个节点的边称为一个切边(cut edge)。而后衡量切边权重的统计数据,直觉上,示例连接的切边越多则越可疑。可以删除或者重新标注可疑示例,如图6所示。值得指出的是,这种方法通常依赖*邻信息,因此,这类方法在高维特征空间并不十分可靠,因为当数据稀疏的时候,领域识别常常并不可靠。

    图6: 识别并删除或重新标注可疑点。

    一个最*出现的不准确监督的情景发生在众包模式中(crowdsourcing)【74】,即一个将工作外包给个人的流行模式。对机器学*而言,用众包模式为训练数据收集标签是一种经济的方式。具体而言,未标注数据被外包给大量的工人去标注。在著名的众包系统 Amazon Mechanical Turk( AMT)上用户可以提交一个任务,例如标注图像有树还是没有树,并向标注工人支付少量的报酬。这些工人通常来自大社会,他们每个人都会执行多种多样的任务。他们通常是相互独立的,报酬不高,并根据自己的判断提供标签。在工人之中,一些可能比另一些更可靠;然而用户通常不会事先知道,因为工人的身份是保密的。还有可能存在“垃圾制造者”,他们几乎是随机地提供标签(例如一个机器人冒充人类来获取报酬),或者“反抗者”,他们故意提供错误答案。除此之外,有些任务对于很多工人来说可能太困难了。因此,用从众包返回的不准确的监督信息进行学*,并保持学*到的性能,是有意义的。


    对机器学*而言,众包通常用来收集标签,而从这些数据中学*得到的模型的性能要比标签的质量更为重要。有很多关于在weak teachers或众包标签学*的研究【81,82】,这与用噪声标签学*很相*(在本节开头部分有介绍);其中的区别在于,对于众包系统而言,我们很容易重复提取某个示例的众包标签。因此,在众包学*中考虑节约成本的效果是很重要的,【83】给出了一个最小化的众包标签数量的上界,也就是说有效众包学*的最小化成本。很多研究工作致力于任务分配和预算分配,试图在精度和标注花费之间取得平衡。为此,离线的不能自适应的任务分配机制【84,85】,以及在线的自适应的任务分配机制【86,87】都有理论支撑。值得注意的是,大多数研究都采用了Dawid-Skene模型,它假设不同任务的潜在成本都是相同的,而很少研究更复杂的成本设置。


    5 结论


    本文聚焦于三种典型的弱监督学*:不完全、不确切和不准确监督。尽管三者可以分开讨论,但在实际中它们常常同时出现,如图1所示。当然也有针对“混合”情况的相关研究【52,92,93】。此外,还有一些其他类型的弱监督。例如,延时监督也可以视为弱监督,它主要出现在增强学*环境中【94】。由于篇幅限制,本文与其说是一个全面的总结回顾,不如说只是一个文献的索引。对于一些细节感兴趣的读者可以阅读参考文献中的相关文章。值得注意的是,越来越多的研究者开始关注弱监督学*,例如部分监督学*(partially supervised learning),主要关注不完全监督的学*【95】,【96,97】,同时还有一些其他关于弱监督的讨论。

    为了便于讨论,本文只关注了二分类问题,而大多数讨论经稍事修改后就可推广至多类问题或回归问题。在多类分类任务中可能出现更复杂的情况【98】。在考虑多标签学*(multi-label learning)【99】时情况可能更为复杂,此时每个样本可能被同时赋予多个标签。用不完全监督举个例子:除了标注示例和未标注示例,多标签任务还会遇到部分标注示例,也就是说一个训练示例只给出了一部分标签【100】。即使只考虑标注数据和未标注数据,这种情况也要比单标签有更多选项,例如在主动学*中,对于选定的未标注示例,既可以询问示例的所有标签【101】,也可以询问某一个特定标签【102】,还可以给一对标签的相关排序【103】。尽管如此,不论是何种数据、何种任务,弱监督学*正在变得越来越重要。


