极大似然估计&最大后验概率估计

https://guangchun.wordpress.com/2011/10/13/ml-bayes-map/

http://www.mi.fu-berlin.de/wiki/pub/ABI/Genomics12/MLvsMAP.pdf

经验风险最小化：

min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))

结构风险最小化：

min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))+lambda J(f)

李航博士《统计学习方法》中第一章第九页中有两个论断

1 当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

2 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计

证明论断1：

极大似然估计：对于观测的随机变量D，其总体分布为

P(D;	heta)

S为抽样得到的样本，

S=(s_1,s_2,...,s_N)

样本是独立同分布得到的，因此样本的分布为

L(	heta) = prod_{i=1}^{N} P(s_i;	heta)

当

S=(s_1,s_2,...,s_N)

确定，则上式可以看做是

	heta

的函数。

这个函数反映了在观察结果已知的情况下，

	heta

的“似然程度”，因此上式被叫做似然函数。用似然程度最大的那个

	heta_{*}

去做

	heta

的估计，这种估计方法叫做"极大似然估计"。取对数，极大平均似然函数为：

max log L(	heta)=max frac{1}{N}sum_{i=1}^{N}log P(s_i;	heta)

上式等价于

min -log L(	heta)=min frac{1}{N}sum_{i=1}^{N} -log P(s_i;	heta)

在统计学习中，S就是样本，

s_{i}=(x_i,y_i).x_imbox{为特征,}y_i{为标签}

当模型是条件概率分布时，则

P(s_i;	heta)=P(y_i|x_i;	heta)

min -log L(	heta)=min frac{1}{N}sum_{i=1}^{N} -log P(y_i|x_i;	heta) -----（1）

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

)，则最小化经验风险的公式为

min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))
=min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} L(y_i,p(y_i|x_i;	heta))
=min limits_{fin mathcal{F}} frac{1}{N} sum_{i=1}^{N} -log p(y_i|x_i;	heta) -----（2）

对比(1)(2)两个公式，论断1得证。

证明论断2

极大似然估计将

	heta

看做是一个确定但未知的常量，而贝叶斯学派则认为

	heta

可以看做一个随机变量，从这个视角出发可得到条件概率

P(	heta|S)

因此利用贝叶斯公式得到

P(	heta|S)=frac{P(S|	heta)P(	heta)}{P(S)}

最大后验概率估计是要最大化

P(	heta|S)

这个后验概率，因此

max P(	heta|S) = max P(S|	heta)P(	heta)

上式与极大似然估计相比，只多了个

P(	heta)

，左边和极大似然估计一样，因此对左边取对数处理求平均似然最大

max frac{1}{N}sum_{i=1}^{N} log P(s_i|	heta)+log P(	heta)

当模型是条件概率分布时，则

P(s_i;	heta)=P(y_i|x_i;	heta)

因此，

max frac{1}{N}sum_{i=1}^{N} log P(y_i|x_i;	heta)+log P(	heta)

取负号，转换为

min frac{1}{N}sum_{i=1}^{N} -log P(y_i|x_i;	heta)-log P(	heta)   -----(3)

当损失函数是对数损失函数(

L(Y,P(Y|X)) = -log P(Y|X)

)，模型是条件概率分布时,

结构风险最小化公式

min limits_{fin F} frac{1}{N} sum_{i=1}^{N} L(y_i,f(x_i))+lambda J(f)
=min limits_{fin F} frac{1}{N} sum_{i=1}^{N} -log P(y_i|x_i;	heta)+lambda J(f)     -----(4)

比较公式(3)(4)，则当

lambda J(f) = -log P(	heta)

两者等价，论断2得证。

(汉武提问，

lambda

在(4)中没有出现，其实

lambda

为超参，在模型中一般首先指定，如果为1/2 , 则

-1/2*2log P(	heta)

), 所以无论怎么取，都可以得到对应的使得等价。

相关阅读:
Docker之Harbor
idea 代码块编辑（批量列编辑）快捷键 -- idea version 2018 不常用
mysql 去除表中重复的数据，保留id最小的数据信息
打家劫舍（动态规划+滚动数组+取模运算优化）
利用线程异步调用
idea 2019激活码
mysql导出PDM表结构并带有注释
安装GO
GO语言
项目启动

原文地址：https://www.cnblogs.com/yxzfscg/p/4867673.html