贝叶斯方法与Ridge回归的联系

贝叶斯方法与Ridge回归的联系

贝叶斯方法与Ridge回归有什么联系？废话少说，我们直接来看。

为了方便说明问题，考虑一维的自变量，将一系列自变量排成向量的形式：(mathbf{x}=(x_1,cdots,x_N)^T)，对应的目标函数为(mathbf{t}=(t_1,cdots,t_N)^T)。

我们假设样本中每个(t)都独立，且服从正态分布，分布的均值为(y(x,mathbf{w})=sum_{j=0}^{M} w_j x^j)（也可以不指定形式，只要是关于(x)和(mathbf{w})的函数即可），方差的倒数为(eta)，则似然函数为

[p(mathbf{t}|mathbf{x},mathbf{w},eta)=prod_{n=1}^{N} mathcal{N}(t_n|y(x,mathbf{w}),eta^{-1}) ]
将似然函数取对数，再把正态分布的具体形式写出来，有

[ln{p(mathbf{t}|mathbf{x},mathbf{w},eta)}=-dfrac{eta}{2}sum_{n=1}^{N}[y(x_n,mathbf{w})-t_n]^2+dfrac{N}{2}ln{eta}-dfrac{N}{2}ln(2pi) ]
最大化似然函数，等价于最小化它的负对数，也等价于最小化(sum_{n=1}^{N}[y(x_n,mathbf{w})-t_n]^2)。我们发现，其实这就是用OLS解线性回归问题。换句话说，用OLS解线性回归，相当于在正态分布假设下，求解最大似然问题。

那么在贝叶斯方法下，又会有什么事情发生呢？由于贝叶斯方法需要一个参数的先验分布，在这里就假设参数(mathbf{w})的先验分布是一个由超参数(alpha)控制的简单的正态分布，注意这里是多维的正态分布：

[egin{aligned} p(mathbf{w}|alpha)&=mathcal{N}(mathbf{w}| mathbf{0},alpha^{-1}mathbf{I})\ &=(dfrac{alpha}{2pi})^{dfrac{M+1}{2}}exp(-dfrac{alpha}{2}mathbf{w}^T mathbf{w}) end{aligned} ]
其中(M+1)是(mathbf{w})的元素的总数。

根据贝叶斯定理，有

[p(mathbf{w}|mathbf{x},mathbf{t},alpha,eta)propto p(mathbf{t}|mathbf{x},mathbf{w},eta)p(mathbf{w}|alpha) ]
我们要最大化的就是(mathbf{w})的后验概率，这样的方法就是MAP（maximum posterior）。

对上式右边取负对数，并舍去与(mathbf{w})无关的项后，变为：

[dfrac{eta}{2}sum_{n=1}^{N}[y(x_n,mathbf{w})-t_n]^2+dfrac{alpha}{2}mathbf{w}^Tmathbf{w} ]
我们发现，在原本的数据服从正态分布的假设中，再加入关于参数的零均值、同方差且无相关的多维正态分布的假设后，贝叶斯方法要最优化的东西，就是Ridge回归中要最优化的东西，取正则化参数(lambda=dfrac{alpha}{eta})，二者的结果是一致的。
相关阅读:
农田开发 NOJ （已知N个点选取3个求最大三角形面积问题）
农田开发 NOJ （已知N个点选取3个求最大三角形面积问题）
农田开发 NOJ （已知N个点选取3个求最大三角形面积问题）
农田开发 NOJ （已知N个点选取3个求最大三角形面积问题）
数次统计 NOJ 1601
数次统计 NOJ 1601
数次统计 NOJ 1601
数次统计 NOJ 1601
微型计算机原理与接口技术实验1.3.1
微型计算机原理与接口技术实验1.3.1
原文地址：https://www.cnblogs.com/analysis101/p/14077222.html