损失函数定义
在监督学习中,由给定的输入X,通过模型 h(x) 出的的预测值 y,与真实值Y不可能完全一致,这时,采用一个损失函数,或者是代价函数来表示这个预测错误的程度
常见的损失函数
损失函数值越小,模型就越好,由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X, Y),所以损失函数的期望是:
这个函数称为期望损失或者是风险损失
学习目标就是选择期望风险最小的模型,由于联合分布P(X, Y)是未知的,所以期望损失不能直接计算,实际上,如果知道了联合分布P(X, Y), 可以直接从联合分布直接求出条件概率分布P(Y|X)了, 也就不需要学习了, 这样一来,一方面根据期望风险最小学习模型要用到联合分布,另一方面,联合分布又是未知的,所以监督学习成为了一个病态问题(ill-fromed problem)
经验风险(经验损失函数)
定义:模型f(x) 关于训练数据集的平均损失函数称为经验风险或经验损失函数。
公式:
这个公式也是一般最常见的损失函数的写法
期望风险和经验风险的关系与缺陷
- 期望风险是关于联合分布期望的损失
- 经验风险是模型关于训练样本集的平均损失
- 根据大树定律,当N趋向于无穷大的时候,经验风险趋向于期望风险,所以当数据无穷多的时候,可以用经验风险当做期望风险
- 但是实际上,通常样本数量不够多,使用经验风险估计期望风险往往效果不太好(过拟合),所以需要增加一定的矫正,这就引出了经验风险最小化和结构风险最小化
我的个人理解,不一定对
期望风险是对未来的误差大小的判定(我希望得到的),而经验风险是我根据训练集数据所得到的误差(我已经得到的),两者本身是两个不同的东西,而我期望用经验风险去估计期望风险,这样两者就产生了关系。
经验风险最小化与结构风险最小化
经验风险最小化
在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定经验风险最小化。经验风险最小化的策略认为,经验风险最小化的模型就是最有模型。根据这一个策略,就可以得到经验风险最小化的结构模型:
当样本容量足够大,就会取得较好的模型效果,在现实中得到了广泛的英语,不如说:极大似然估计就是经验风险最小化的一个例子,当模型是条件概率分布的时候,损失函数式对数损失函数时,经验风险最小化就等价于极大似然估计。
经验风险最小化学习的缺陷:
如果样本容量小,会产生过拟合问题
结构风险最小化
是为了防止过拟合而提出的策略,结构风险最小化等价于正则化,是在经验风险最小化的基础上加上正则化项或者惩罚项
定义式:
J(f)可以使用l1 或者l2范数
参考:李航 《统计学习方法》