最大熵模型

最大熵模型

自然界中的熵:

自封闭系统的运动总是倒向均匀分布:

一.信息论基础

1.自信息:

信息: i(x) = -log(p(x))

a.如果说概率p是对确定性的度量

b.那么信息就是对不确定性的度量

c.当一个小概率事件发生了，这个事件的信息量很大；反之如果一个大概率事件发生了，这个事件的信息量就很少。

2.熵：自信息的期望

熵是对平均不确定性的度量.

熵的理解:熵其实定义了一个函数(概率分布函数)到一个值(信息熵)的映射:P(x)->H(函数->值)

3.联合熵和条件熵

a.联合熵：两个随机变量X，Y的联合分布，可以形成联合熵Joint Entropy，用H(X,Y)表示。

b.条件熵：在随机变量X发生的前提下，随机变量Y发生所新带来的熵定义为Y的条件熵，用H(Y|X)表示，用来衡量在已知随机变量X的条件下随机变量Y的不确定性, 用H(X|Y)表示

4.相对熵

相对熵，又称互熵，交叉熵，鉴别信息,Kullback熵，Kullback-Leible散度等,设p(x)、q(x)是X中取值的两个概率分布，则p对q的相对熵是:

在一定程度上，相对熵可以度量两个随机变量的“距离”

5.互信息

两个随机变量X，Y的互信息定义为X，Y的联合分布和各自独立分布乘积的相对熵，用I(X,Y)表示：

性质:

I(x,y)>>0：x和y关联强度大

I(x,y)=0：x和y无关

I(x,y)<<0：x和y具有互补的分布

6.各个熵之间的关系

7.信息增益和熵的关系

a.信息增益是针对一个一个的特征而言的，就是看一个特征t，系统有它和没它的时候信息量各是多少，两者的差值就是这个特征给系统带来的信息量，即增益。

b.系统含有特征t的时候信息量很好计算，就是刚才的式子，它表示的是包含所有特征时系统的信息量。

8.信息论与机器学习的关系

二.最大熵模型

1.最大熵原理:

a.承认已知事物(知识)

b.对未知事物不做任何假设

c.最大熵存在且唯一(凸优化)

理解最大熵例子:

已知：

“学习”可能是动词，也可能是名词。

“学习”可以被标为主语、谓语、宾语、定语……

令x1表示“学习”被标为名词， x2表示“学习”被标为动词。

令y1表示“学习”被标为主语， y2表示被标为谓语，y3表示宾语， y4表示定语。得到下面的表示：

　　p(x1) + p(x2) =1 p(y1) + p(y2) + p(y3) + p(y4) =1

根据无偏原则:

　　p(x1) = p(x2) = 0.5

　　p( y1) = p( y2) = p( y3) = p( y4) = 0.25

引入新知识:

　　若已知：“学习”被标为定语的可能性很小，只有0.05

　　　　p( y4) = 0.05　　

　　仍然坚持无偏原则：　　

　　　　p(x1) = p(x2) = 0.5　　

　　　　p( y1)= p( y2) = p( y3) = 0.95/3

再次引入新知识:

　　当“学习”被标作动词的时候，它被标作谓语的概率为0.95

　　　　p( y2 | x1) = 0.95

　　除此之外，仍然坚持无偏见原则，尽量使概率分布平均。

问：怎么样能尽量无偏见的分布？

概率平均分布等价于熵最大

　　问题转化为：计算X和Y的分布，使H(Y|X)达到最大值，并且满足条件　　

　　　　

2.最大熵模型:

a.定义条件熵:

b.模型目的:

　　

c.定义特征函数:

　　

d.约束条件:

　　

　　

特征函数理解:

　　

特征函数 f(x,y) 是一个二值函数，当 x 与 y 满足事实时取值为 1 ，否则取值为 0 。比如对于如下数据集：

数据集中，第一列为 Y ，右边为 X ，可以为该数据集写出一些特征函数，数据集中得特征函数形式如下：

为每个 <feature,label> 对都做一个如上的特征函数，用来描述数据集数学化。

约束条件理解:

针对原问题，首先引入拉格朗日乘子λ0,λ1,λ2, ..., λi，定义拉格朗日函数，转换为对偶问题求其极大化：

(后面会专门讲拉格朗日乘子法)

然后求偏导:

令上述的偏导结果等于0，解得：

将求得的最优解P*(y|x)带回之前建立的拉格朗日函数L:

得到关于λ的式子:

其中:

　　

三.最大熵模型与极大似然函数

1.极大似然估计MLE

　　

　　理解一般形式:

　　　　

　　　　

2.对最大熵拉格朗日乘子式取对数:

　　

　　将最优解p*代入MLE:

　　

　　其中:

　　　　

3.MaxEnt与MLE两者比较:

　　a.极大似然估计得到的结果:

　　　　

　　b.之前对偶问题的极大化解得到的结果:

　　　　

　　

　　
相关阅读:
leetcode 5414 收藏清单
 leetcode 714 买卖股票的最佳时机含手续费（dp）
春招的一个记录
 leetcode 560 和为k的子数组（前缀和 + map）
机器学习--激活函数篇
 leetcode 回文链表（O(1)空间复杂度）
Leetcode 659 分割数组为连续子序列（贪心）
论文笔记：MeLU: Meta-Learned User Preference Estimator for Cold-Start Recommendation
jni.h头文件详解一
 JNI笔记
原文地址：https://www.cnblogs.com/xmeo/p/6543062.html

自然界中的熵:

一.信息论基础

二.最大熵模型

三.最大熵模型与极大似然函数