1.机器学习主要是通过计算机在已有的数据上(经验)产生相应的模型(学习算法),在面临新的情况时,模型能给出相应的判断。所以说机器学习是研究学习算法的学问。
2基本术语
2.1以西瓜是否成熟为例,(色泽=青绿;根蒂=蜷缩;敲声=浊响)这一条记录称为一个示例或样本sample。样本组成的集合称为数据集;每一个示例包含几个属性,上例中包含三个属性,我们称之为三维,这个示例也可以看成是一个特征向量。一般的D={X1,X2,X3....}为一个数据集。
2.2从数据中学习的模型的过程称之为“学习”或”训练“,这个过程使用的数据称之为训练数据,得到模型。学到的模型反应了数据的某种潜在的规律,因此也称为假设。这种规律本身称之为真相(ground truth)。一切为了逼近真相。样本一般满足一个分布D,训练数据一般满足独立同分布,所以训练集越大,越容易准确预测。
2.3光有样本sample还不行,要建立可预测的模型需要示例的结果,样例(example),如((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)。
2.4如果我们预测的是像好瓜,坏瓜这样的离散值,此类学习任务称之为“分类”,预测成熟度0.98这样的连续值,此类学习任务称之为”回归“(regression)。
预测任务是希望通过对训练集{(X1,y1),(X2,y2)...}进行学习建立一个从输入空间X到输出空间Y的映射,对于二分类Y={0,1},对于回归Y=R实数集
2.5根据训练数据是否有标记数据,分为无监督学习(聚类)和有监督学习(分类和回归)。
2.6