注释:之前看周志华老师的书本,看到过这个理论,也懂得偏差和方差对数据的影响,现在重点说明一下数学原理。 |
我们先定义几个概念:
x:数据集 y:真实标签(实际值) yd: 当前标签(标签值,有可能是错误的,因为收集过程可能出错) f(x;D):在D模型中X的预测值 f(x)拔:x在某个模型中的期望值(可以说是概率也可以说是平均值,比如硬币正反面的期望是0.5,不用管怎么来的,就看作平均值即可) |
求取平均值(期望值):
噪声平方定义(当前标签和实际标签差):
方差(预测值和平均值的差):
偏差(实际值和平均值的差):
以下推导我没有进行,不求甚解!
参考:
https://www.cnblogs.com/en-heng/p/5974371.html
https://www.cnblogs.com/bentuwuying/p/6654536.html
都不知道谁是原创,相互学习(抄袭)吧!