监督学习:
监督学习是目前最主流的学习方式,其特点是:训练过程中样本都是有标签的。
常见的监督学习任务有:分类、回归、序列标注等。
学习步骤大致可以分为三步(以SVM为例):
1) 在有监督数据上训练,学的一个判别器W;
2)然后在测试集(故意把标签P抹去)上,用上一步学的判别器W进行分类任务,得到一个预测标签PY
3) PY和P的差距,就是衡量算法好坏的标准。
无监督学习:
特点是:训练过程中没有样本标签。
常见的任务:聚类、降维等
常用算法:k-means、谱聚类等
步骤:
1)直接在全部数据上训练,得到预测标签PY
2) 之后将PY和真实标签Y进行对比,用的是经典的匈牙利算法。
注意:这里的PY和Y并不是一一对应关系,而是看“类内样本”对应关系,这也是聚类指标和分类指标不同之处。
举个例子:样本A和样本B真实标签是“1”
经过聚类算法处理后,得到了预测标签。若A、B标签相同,则代表这两个样本分对了(标签可能是“1”,也可能是“2”、“3”、“4”、、、)
若聚类后,A和B的标签不同,则代表这两个样本分错了(分成不同类了)。
半监督学习:
特点是:训练过程中,用的是全部的样本数据(和监督的区别,监督是认为的把数据划分为有标签和无标签),但是这些样本中只有一小部分有标签,大部分是没有标签的。
其原理是通过标签传播的方式,利用已有标签的样本信息去预测未知标签样本的类别信息。
典型方法:S3VM、S4VM、CS4VM、TSVM;