贝叶斯估计
极大似然估计,概率空间\((\Omega,F,P)\),\(\Omega\)代表元素,\(F\)代表\(\sigma\)-代数,\(P\)代表概率测度。\(X\)是随机变量,假定\(X\sim p(x|\theta)\)(密度函数中有\(\theta\)作为参数),例如高斯分布等。将参数估计出来可以对随机变量有一个更好的理解。那么怎么去估计这个参数呢?进行独立抽样:\(x_1,x_2...x_n\),\(L(\theta)=\Pi_{i=1}^n(p(x_i)|\theta)\),极大似然估计想找到这样一个\(\theta\)使得\(L(\theta)\)最大,即\(argmax_{\theta}L(\theta)\)。对其取\(log\)后就变成求和了,处理起来更加方便。
考虑二元伯努利分布,\(x_1,...x_n,x_i\in \{0,1\}\)。\(p(X=x_i)=p^{1-x_i}(1-p)^{x_i}\)。\(L(p)=p^{1-x_1}(1-p)^{x_1}...p^{1-x_n}(1-p)^{x_n}=p^k(1-p)^{n-k}\)。同样取对数后对\(p\)求导。这也可以拓展到多元的情况。
考虑高斯分布,\(N(\mu, \sigma^2)\),\(p(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-(\frac{x-\mu}{2\sigma})^2}\)...极大似然估计给出的参数估计和一般的计算均值方差的方法算出来是一样的。
在极大似然估计中认为\(\theta\)是一个参数,而在贝叶斯估计中认为\(\theta\)是本身满足一定分布的随机变量。给定一组抽样\(S\),\(p(\theta|S)=p(S,\theta)/p(S)=p(S|\theta)p(\theta)/p(S)\),在极大似然估计中关注的是\(p(S|\theta)\)(认为\(\theta\)是一个参数),而此时还需要把\(p(\theta)\)乘上去。因此,\(argmax_{\theta}p(\theta|S)=argmax_{\theta}\frac{p(S|\theta)p(\theta)}{p(S)}\),注意到分母与\(\theta\)无关,因此简化为:\(argmax_{\theta}p(S|\theta)p(\theta)\)。这里可以看出极大似然估计与贝叶斯估计的区别:是否乘以\(\theta\)本身的分布。
应用:设\(\theta\)满足\((0,1)\)的均匀分布,则\(p(\theta)\)恒等于1,\(argmax_{\theta}p(\theta|S)=argmax_{\theta}p(S|\theta)\)。
分类问题:
给出\((x_1,y_1)...(x_n,y_n),x_i\in R^k,y_i\in\{0,1\}\)。出发点:把\(x,y\)看作联合分布,\(p(x|y=0)\sim N(\mu_0,\sigma_0^2),p(x|y=1)\sim N(\mu_1,\sigma_1^2)\)。对于一个新的样本,\(p(y=0|x)=\frac{p(y=0,x)}{p(x)}=\frac{p(x|y=0)p(y=0)}{p(x,y=0)+p(x,y=1)}=\frac{p(x|y=0)p(y=0)}{p(x|y=0)p(y=0)+p(x|y=1)p(y=1)}\),\(p(x|y=0),p(x|y=1)\)已经能由我们的假设估计出来了,而\(p(y=0),p(y=1)\)也知道,因此就可以预测了。总之,问题就变成了估计\(\mu_0\)等这些参数。\(p(x_i,y_i)=p(x_i|y_i)p(y_i)\to\Pi_{i=1}^np(x_i,y_i)\Pi_{i=1}^np(x_i|y_i)\Pi_{i=1}^np(y_i)\)。取对数后:\(\Sigma_{i=1}^n logp(x_i,y_i)=\Sigma_{i=1}^nlogp(x_i|y_i)+\Sigma_{i=1}^nlogp(y_i)\)。与想要预测的参数密切相关的就是\(\Sigma_{y_i=0}logp(x_i|y_i=0)+\Sigma_{y_i=1}logp(x_i|y_i=1)\)这两项。\(\mu_0\)的最佳估计是\(\frac{\Sigma_{y_i=0}x_i}{k}\),\(\sigma^2_0\)的最佳估计是\(\frac{1}{k}\Sigma_{y_i=0}(x_i-\mu_0)^2\),\(\mu_1\)的最佳估计是\(\frac{\Sigma_{y_j=1}x_j}{n-k}\),\(\sigma^2_0\)的最佳估计是\(\frac{1}{n-k}\Sigma_{y_j=1}(x_j-\mu_1)^2\)。
对于分界线:
当\(\sigma_0=\sigma_1\)的时候,x是常数。