统计学习关于数据的基本假设是同类数据具有一定的统计规律性,同类数据指的是具有某种共同性质的数据,所以可用概率统计方法加以处理。比如,可用随机变量描述数据中的特征,用概率分布描述数据的统计规律。
统计学习总的目标是考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能的提高学习效率。
统计学习方法的步骤:
l 得到一个有限的训练数据集合
l 确定包含所有可能模型的假设空间,即学习模型的集合
l 确定模型选择的准则,即学习的策略
l 实现求解最优模型的算法
l 通过学习方法选择最优的模型
l 利用最优模型对新数据进行预测或分析
统计学习包括监督学习、非监督学习、半监督学习和强化学习。
训练误差和测试误差与模型复杂度的关系:当模型复杂度增大时,训练误差会逐渐减小并趋向于0,测试误差会先减小,达到最小值后又增大。当模型的复杂度过大时,过拟合现象就会发生。
生成模型与判别模型
生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y/X)作为预测的模型。典型的生成模型有朴素贝叶斯法和隐马尔科夫模型。
判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y/X)作为预测的模型。判别方法往往学习的准确率更高。