1. Bayesian approach
对于多项式拟合问题,我们可通过最小二乘(least squares)的方式计算得到模型的参数,最小二乘法又可视为最大似然(maximum likelihood)的一种特例,当模型选择过于复杂时,很容易在测试集上造成过拟合(over-fitting),因此,过拟合问题可被理解为最大似然普遍存在的一种性质。
过拟合的问题可通过贝叶斯方法得以避免。
2. 举例
由 N 个输入向量 x={x1,x2,…,xN}T 及每一个输入向量对应的目标值 t={t1,t2,…,tN}。定义 y(x,w) 为判定函数,所谓一种概率化的处理方式即在于,输入样本为 x0 时,预测值未必为 y(x0,w),而是以一定概率为 y(x0,w)。我们现做如下假设:
p(t∣∣x,w,β)=N(t|y(x,w),β−1)
也即服从均值为 y(x,w),方差为 σ2=β−1 的高斯分布。
则对于全体样本的似然函数(连乘是基于样本之间彼此独立的基本假设)为:
p(t∣∣x,w,β)=∏n=1NN(tn|y(xn,w),β−1)
为方便计算,两边同时取对数,进一步简化为:
lnp(t∣∣x,w,β)=−β2∑n=1N{tn−y(xn,w)}2+N2lnβ−N2ln(2π)
则可求得 β 的最大似然解 βML(上述等式求关于 β 的导数,并置 0):
1βML=1N∑n=1N{tn−y(xn,w)}2
1βML 表示的是高斯分布的方差。