机器学习是人工智能的一个分支,包括从数据中自动创建模型的算法。从高层次上讲,机器学习有四种:监督学习、无监督学习、强化学习和主动机器学习。由于强化学习和主动机器学习相对较新,因此此类列表有时会省略它们。由于强化学习和主动机器学习相对较新,因此此类列表有时会省略它们。你也可以把半监督学习添加到列表中,也不算错。
监督学习
监督学习是从带有正确答案(目标值)的经过标记的训练数据开始的。在学习过程之后,将得到一个经过调优的权重集的模型,这可以用于预测尚未标记的类似数据的答案。
你想要的是训练一个没有过度拟合或者欠拟合的高精度模型。高精度意味着你已经优化了损失函数。在分类问题的情景中,准确性是模型产生正确输出的示例的比例。
过度拟合意味着模型与它所看到的数据关联过于紧密,以致于不能推广应用到它所没有看到的数据。
欠拟合意味着模型不够复杂,无法捕获数据中的潜在趋势。选择损失函数来反映模型的“不足之处”将损失最小化以找到最佳模型。
对于数值(回归)问题,损失函数通常是均方误差(MSE),也可表示为均方根误差(RMSE)或者均方根偏差(RMSD)。这对应于数据点和模型曲线之间的欧几里得距离。对于分类(非数值)问题,损失函数可以基于一种度量方法,包括ROC曲线下面积(AUC)、平均精度、精度恢复和对数损失等。
为了避免过度拟合,通常把标记过的数据分为两组,多数用于训练,少数用于验证和测试。验证集损失一般高于训练集损失,但这是你所关心的,因为不应该表现出对模型的偏见。
对于小数据集,使用固定的维持集进行测试验证可能会导致统计值较低。解决这一问题的一种方法是使用交叉验证方法,其中不同的折叠(数据子集)轮流作为不同训练阶段的维持集。
我提到了AUC是ROC曲线下的区域。ROC是接收机工作特性曲线;该术语来自无线电信号分析,但从本质上讲,ROC曲线通过绘制真正值比率与假正值比率的关系来显示分类器的灵敏度。ROC曲线下的区域越大越好,这样,当你使用它作为损失函数的基础时,实际上希望最大化AUC。
无监督学习
无监督学习是一种范式,旨在通过奖励代理(即计算机程序),在不考虑具体任务的情况下学习它们观察到的数据,从而创建自主智能。换句话说,代理是出于学习的目的而去学习。
半监督学习
顾名思义,半监督学习介于受监督学习和无监督学习之间。受监督学习采用带有正确答案(目标值)的标记过的训练数据。在学习过程之后,将得到一个经过调优的权重集的模型,这可以用于预测尚未标记的类似数据的答案。
半监督学习同时使用标记和未标记的数据来拟合模型。在某些情况下,比如添加未标记的数据的确提高了模型的准确性。在其他情况下,未标记的数据可能会使模型更差。正如我将在下面所讨论的,在不同的数据特性条件下,不同的算法会有不同的缺点。
一般来说,标记数据需要花费金钱和时间。这并不总是问题,因为有些数据集已经有了标记。但是如果您有很多数据,其中只有一些是标记过的,那么半监督学习这种技术很值得一试
参考文献
[1]MartinHeller,Charles.机器学习之半监督学习释义[N].计算机世界,2019-11-25(006).
[2]MartinHeller,Charles.机器学习之无监督学习释义[N].计算机世界,2019-11-11(007).
[3]MartinHeller,Charles.机器学习之监督学习释义[N].计算机世界,2019-09-16(007).