1.1 引言
机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型”(model)的算法,即“学习算法”(learning algorithm)。
1.2 基本术语
反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature);
属性上的取值称为“属性值”(attribute value);
属性张成的空间称为“属性空间”(attribute space)、“样本空间”(sample space)或“输入空间”。
由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。
一般地,D={x1,x2,…,xm}表示包含m个示例的数据集,每个示例由d个属性描述,则每个示例xi=(xi1,xi2,…,xid)是d维样本空间X中的一个向量,xi∈X,其中xij是xi在第j个属性上的取值,d称为样本xi的“维数”(dimensionality)。
从数据中学得模型的过程称为“学习”(learning)或“训练”(training);
训练过程中使用的数据称为“训练数据”(learning data),其中每个样本称为一个“训练样本”(training sample);
训练样本组成的集合称为“数据集”(training set)。
学得模型对应了关于数据的某种潜在的规律,因此亦称“假设”(hypothesis);
这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。
有时将模型称为“学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。
关于示例结果的信息,称为“标记”(label);
拥有了标记信息的示例称为“样例”(example)。
一般地,用(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”(label space)或“输出空间”。
若将标记看作对象本身的一部分,则“样例”有时也称为“样本”。
若预测的是离散值,此类学习任务称为“分类”(classification);
若预测的是连续值,此类学习任务称为“回归”(regression)。
对只涉及两个类别的“二分类”(binary classification)任务通常称其中一个为“正类”(positive class),另一个类为“反类”(negative class);
涉及多个类别时,则称为“多分类”(multi-class classification)任务。
一般地,预测任务是希望通过对训练集{(x1,y1),(x2,y2),…,(xm,ym)}进行学习,建立一个从输入空间X到输出空间Y的映射f:x—>y。
对二分类任务,通常令Y={-1,+1}或{0,1};
对多分类任务,|Y|>2;
对回归任务,y=R,R是实数集。
学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。
聚类(clustering),即将训练集分成若干组,每组称为一个“簇”(cluster);
这些自动形成的簇可能对应一些潜在的概念划分。
这样的学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础;
需说明的是,在聚类学习中,潜在的概念事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类是则是后者的代表。
机器学习的目标是使学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作的很好;即便对聚类这样的无监督学习任务,也希望学得的簇划分能适用于没在训练集中出现的样本。
学得模型适用于新样本的能力,称为“泛化”(generalization)能力。
具有强泛化能力的模型能很好地适用于整个样本空间。
通常假设样本空间中全体样本服从一个未知“分布”(distribution)D,获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed,简称i.i.d.)。
一般而言,训练样本越多,得到的关于D的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型。
1.3 假设空间
归纳(induction)与演绎(deduction)是科学推理的两大基本手段,
前者是从特殊到一般的泛化(generalization)过程,即从具体的事实归结出一般性规律;
后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。
归纳学习有狭义和广义之分,
广义的归纳学习大体相当于从样例中学习;
而狭义的归纳学习则要求从训练数据中学得概念(concept),因此亦称为“概念学习”或“概念形成”。
概念学习中最基本的是布尔概念学习。
把学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”(fit)的假设。
1.4 归纳偏好
机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。
归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观”。
“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。
“没有免费的午餐”定理(No Free Lunch Theorem),简称NFL定理。
NFL定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。