让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,就是半监督学习。
要利用未标记样本,必然要做一些将未标记样本所揭示的数据分布信息与类别标记相联系的假设。最常见的是“聚类假设”,即假设数据存在簇结构,同一个簇的样本属于同一类别。半监督学习中另一种常见的假设是“流形假设”,即假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。“邻近”程度常用相似程度来刻画,因此,流形假设可看做聚类假设的推广,但流形假设对输出值没有限制,因此比聚类假设的适用范围更广,可用于更多类型的学习任务。事实上,无论聚类假设还是流形假设,其本质都是相似的样本拥有相似的输出这个基本假设。
半监督学习可以进步一划分:
1. 纯半监督学习:假设训练数据中的未标记样本并非待预测的数据,是基于“开放世界”假设,希望学到模型能适用于训练过程中未观察到的数据。
2. 直推学习:假设学习过程中所考虑的未标记样本恰是待预测数据,基于“封闭世界”假设,仅试图对学习过程中观察到的未标记数据进行预测。
生成式方法:直接基于生成式模型的方法,假设所有数据(无论是否有标记)都是由同意潜在的模型生成的。这个假设使得我们能通过潜在模型的参数将未标记数据与学习目标联系起来,而未标记数据得到标记则可看作模型的缺失参数,通常是基于EM算法进行极大似然估计求解。
半监督SVM:半监督支持向量机(S3VM)是支持向量机在半监督学习的推广。在不考虑未标记样本时,支持向量机试图找到最大间隔划分超平面,而在考虑未标记样本后,S3VM试图找到能将两类有标记样本分开,且穿过数据低密度区域的划分超平面,显然,这是聚类假设在考虑了线性超平面划分后的推广。其中,最著名的是TSVM,与标准SVM一样,TSVM也是针对二分类问题的学习方法,试图考虑对未标记样本进行各种可能的标记指派,即尝试将每个未标记样本分别作为正例或反例,然后再所有这些结果中,寻求一个在所有样本(包括有标记样本和进行了标记指派的未标记样本)上间隔最大化的划分超平面。一但划分超平面得以确定,未标记样本的最终标记指派就是其预测结果。
图半监督学习:给定一个数据集,我们可将其映射为一个图,数据集中每个样本对应于图中的一个节点,若两个样本之间的相似度很高或相关性很强,则对应的节点之间存在一条边,边的强度正比于样本之间的相似度或相关性。我们可将有标记样本所对应的结点想象为染过色,而未标记样本所对应的结点尚未染色,于是,半监督学习就对应于颜色在图上扩散或传播的过程。由于一个图对应于一个矩阵,这就使得我们能基于矩阵运算来进行半监督学习算法的推导与分析。
基于分歧的方法:以上方法是基于单学习器利用未标记数据不同。而这个方法是使用多学习器,而学习器之间的分歧对未标记数据的利用至关重要。---协同训练方法是此类方法的重要代表,很好地利用了多视图的相容互补性。假设数据拥有两个充分且条件独立的视图,“充分”是指每个视图都包含足以产生最优学习器的信息,“条件独立”则是指在给定类别标记条件下两个视图独立。在此情况下,可用一个简单的办法来利用未标记数据:首先在每个视图上基于有标记样本分别训练出一个分类器,然后让每个分类器分别去挑选自己最有把握的未标记样本进行训练更新,,,这个互相学习、共同进步的过程不断迭代进行,直到两个分类器都不再发生变化,或达到预先设定的迭代轮数位置。
半监督聚类:聚类时一种典型的无监督学习任务,然而在现实聚类任务中我们往往能获得一些额外的监督信息,于是可通过半监督聚类来利用监督信息以获得更好的聚类效果。