ML–基本概念
一.机器学习的起源
机器学习
最早是由一位人工智能领域的先驱Arthur Samuel
在1959年提出来的。本意指的是一种让计算机在不经过明显编程的情况下,对数据进行学习,并且做出预测的方法,属于计算机科学领域的一个子集。公认的世界上第一个自我学习项目就是Samuel跳棋游戏
二.有监督学习与无监督学习
有监督学习
在机器学习领域,有监督学习和无监督学习是两种常用的方法。有监督学习是通过现有训练数据集进行建模,再用模型对新的数据样本进行分类或者回归分析的机器学习方法。在监督式学习中,训练数据集一般包含样本特征变量及分类标签,机器使用不同的算法通过这些数据推断出分类的方法,并用于新的样本中。目前有监督学习算法已经比较成熟,并且在很多领域都有很好的表现
无监督学习
无监督学习或者说非监督式学习,则是在没有训练数据集的情况下,对没有标签的数据进行分析并建立合适的模型,以便给出问题解决方案的方法。在无监督学习当中,常见的两种任务类型是数据转换
和聚类分析
数据转换
的目的是把本来非常复杂的数据集通过非监督学习算法进行进行转换,使其变得更容易理解,常见的数据转换方法之一便是数据降维,即通过对特征变量较多的数据集进行分析,将无关紧要的特征变量去除,保留关键特征变量(例如:把数据集降至二维,方便进行数据可视化处理)聚类算法
则是通过把样本划归到不同分组的算法,每个分组中的元素都具有比较接近的特征。目前,聚类算法主要应用在统计数据分析,图像分析,计算机视觉等领域
三.机器学习中的分类与回归
分类和回归是有监督学习中两个最常见的方法。对于分类来说,机器学习的目标是对样本的类标签进行预测,判断样本属于哪一个分类,结果是离散的数值
回归分析来说,其目标是要预测一个连续的数据或者是范围
四.模型的泛化,过拟合与欠拟合
模型的泛化(generalization)
在有监督学习中,我们会在训练数据集上建立一个模型,之后会把这个模型用于新的,之前从未见过的数据中,这个过程称为模型的泛化
那么我们用什么样的标准来判断一个模型的泛化是比较好的,还是比较差的呢?
过拟合(overfitting)
我们可以使用测试数据集对模型的表现进行评估。如果你在训练数据集上使用了一个非常复杂的模型,以至于这个模型在拟合训练数据集时表现非常好,但是在测试数据集的表现非常差,说明模型出现了过拟合的问题
欠拟合(underfitting)
相反,如果模型过于简单,连训练数据集的特点都不能完全考虑到的话,那么这样的模型在训练数据集和测试数据集的得分都会非常的差,这个时候我们说模型出现了欠拟合的问题
而只有模型在训练数据集和测试数据集得分都比较高的情况下,我们才会认为模型对数据拟合的程度刚刚好,同时泛化的表现也会更出色