题外话(非书中所有):统计学习书中讲到的方法和一般机器学习类书籍讲到的方法很像,那么统计学习和机器学习的区别在哪?从网上查了一些资料没找到明显的区别,如果有,大概是统计学习中的方法都是理论上可以证明的,机器学习中的方法更讲究实用,虽然理论上可能还未证明。如最近比较热的Deep Learning,就是理论上还未证明其正确性。
一、统计学习的特点:
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
实现统计学习方法的步骤:
1)得到一个有限的训练数据集;
2)确定包含所有可能的模型的假设空间;
3)确定模型选择的准则,即学习的策略;
4)实现求解最优模型的算法;
5)选择最优模型,对新数据进行预测或分析;
二、基本概念:
输入与输出所有可能取值的集合分别称为输入空间和输出空间。每个具体的输入是一个实例,通常由特征向量表示。所有特征向量存在的空间称为特征空间。模型实际都是定义在特征空间上的。
根据输入、输出变量的不同,可以将统计学习问题划分为:回归问题——输入、输出均为连续变量,分类问题——输入连续、输出离散,标注问题——输入、输出均为变量序列,如给句子分词、标词性等问题。感兴趣的可以想想,如果输入为离散,输出为连续,像预测房屋价格这样的问题,属于哪一类?应如何解决?
监督学习的模型可以是概率模型或非概率模型,由条件概率分布 ( P(Y | X) ) 或决策函数(decision function) ( Y=f(X) ) 表示,随具体学习方法而定。
三、统计学习三要素:
1)模型:
模型是指所要学习的条件概率分布或决策函数,模型所组成的空间为假设空间,根据模型为概率模型或非概率模型,假设空间可以表示为:
( F = ig{ f | Y=f(X) ig} ) 或 ( F = ig{ P | P(Y|X) ig} )
用参数空间表示即为: ( F = ig{ f | Y=f_{ heta}(X), heta in R^{n} ig} ) 或 ( F = ig{ P | P_{ heta}(Y|X), heta in R^{n} ig} )
2)策略:
1、损失函数和风险函数:
为了从假设空间中选取最优模型,引入损失函数与风险函数的概念,损失函数度量模型一次的预测结果的好坏,风险函数度量平均意义下模型预测的好坏。
常用的损失函数有:
- 0-1损失函数 ( L(Y, f(X)) = egin{cases}1, & Y eq f(X) \ 0, & Y = f(X) end{cases} )
- 平方损失函数 ( L(Y, f(X)) = (Y - f(X))^2 )
- 对数损失函数 ( L(Y, P(Y|X))=-logP(Y|X) )
风险函数,即损失函数的期望: ( R_{exp} = E_{P}[L(Y, f(X))] = int_{X imes Y} L(y, f(x)) P(x,y) dxdy ) ,这里 ( P(X,Y) ) 是输入、输出变量 ( (X,Y) )
的联合概率分布,当然 ( P(X,Y) ) 是未知的。如果知道 ( P(X,Y) ) ,就可以从联合分布求出条件概率分布 ( P(X,Y) ) , 也就不需要学习了。
经验风险,即关于训练数据集的平均损失, ( R_{emp}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) 。根据大数定律,当样本容量N趋于无穷时,经验风险 ( R_{emp}(f) ) 趋于期望风险 ( R_{exp}(f) ) 。所以很自然的想法是用经验风险估计期望风险,但由于训练样本有限,甚至很小,所以用经验风险估计期望风险并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
2、经验风险最小化和结构风险最小化:
经验风险最小化,就是求解最优化问题: ( min_{f in F} frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) ) ,其中 ( F ) 是假设空间。
结构风险最小化,是为了防止过拟合,而在经验风险基础上加上表示模型复杂度的正则化项或罚项,定义为: ( R_{srm}(f) = frac{1}{N} sum_{i=1}^{N} L(y_{i}, f(x_{i})) + lambda J(f) ) ,( lambda geq 0 ) ,其中 ( J(f) ) 为模型的复杂度,是定义在假设空间 ( F ) 上的泛函。模型 ( f ) 越复杂,复杂度 ( J(f) ) 就越大。
书中提到,贝叶斯估计中的最大后验概率估计就是结构风险最小化。因为 ( heta = max_{ heta} f(x| heta ) h( heta ) = max_{ heta} [log f(x| heta) + log h( heta )] = min_{ heta } [-log f( x| heta) - log h( heta )] ),所以当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。
正则化,是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,它的一般形式即 (R_{srm} )的定义。正则化项可以取不同的形式,如回归问题中,正则化项可以是参数向量的 ( L_{2} )范数: