參考http://blog.csdn.net/zouxy09/article/details/8537620
參考 http://www.cnblogs.com/jerrylead
之前介绍了EM算法在混合高斯模型中的应用,如今让我们来看看问什么EM算法能够用于这类问题。
首先介绍一下Jensen 不等式
Jensen 不等式
我们知道,假设设
显然我们的样本
这时
begin-补充-hessian矩阵
对于一个实值多元函数
当中 D_i表示对第
可见假设hessian矩阵存在那么它必定是对称的由于求偏导数时的求导顺序并不影响终于结果:
利用hessian进行多元函数极值的判定:
假设实值多元函数
假设H(M)是正定矩阵。则临界点M处是一个局部的极小值。
假设H(M)是负定矩阵。则临界点M处是一个局部的极大值。
假设H(M)是不定矩阵,则临界点M处不是极值。
end-补充-hessian矩阵
假设
以下给出jensen不等式定理:
假设 f 是凸函数, X 是随机变量,那么
特别地。假设
为了便于理解咱们先看以下:
凸函数的概念:
【定义】假设函数
注意哦开口向下的是凸,开口向上的是凹。
假设不等式中等号仅仅有 时才成立。我们分别称它们为严格的凹凸函数.
推广下就是:
对于随意的凹函数
对于随意的凸函数
假设上面凹凸是严格的,那么不等式的等号仅仅有
事实上上面的结论就是我们的jensen不等式。相信大家都见过。
可将jensen用图形表演示例子如以下:
当中
另外,
Jensen 不等式应用于凹函数时,不等号方向反向,也就是
EM算法
假如我们有训练样本集{
可是在上一篇中我们提到由于
EM 是一种解决存在隐含变量优化问题的有效方法。其思想是:不断地建立
这就话没看懂吧!
看不懂正常,以下来具体介绍EM算法:
对于每个例子
这样我们能够得到:
注:
1、(1)到(2)比較直接。就是分子分母同乘以一个相等的函数。
2、(2)到(3)利用了 Jensen不等式。首先log函数是凹函数。其次依据lazy Statistician规则,可知事实上就是
的数学期望。能够看作jensen不等式中的
能够看作jensen不等式中的
begin-补充-Lazy Statistician规则
设
(1)
若
(2)
end-补充
因此。对于不论什么一种分布
(我们知道,在EM算法中的E步中,我们的
依据jensen不等式我们知道当且仅当
这里
当中
进而可得:
再利用条件概率公式可得:
上面的推导有点乱,如今把他们压缩下就是:
如今我们知道
这一步就是
以下让我们来证明EM算法的收敛性:
假定θ(t)和θ(t+1)是 EM 第 t 次和 t+1 次迭代后的结果。 假设我们证明了ℓ(θ(t)) ≤ ℓ(θ(t+1)),也就是说极大似然预计单调添加,那么终于我们会到达最大似然预计的最大值。 以下来证明,选定
进而等号满足:
然后我们通过最大化上面等式的式右面获得了新的參数
此时必定有:
上面第一行是由式(3)得到,即基于
第( 5)步利用了 M 步的定义。第( 5)步利用了 M 步的定义。 M 步就是将θ(t)调整到θ(t+1),即
因此( 5)成立,( 6)是之前的等式结果。
这样就证明了ℓ(θ)会单调添加。因此EM算法是收敛的。
假设我们定义:
从前面的推导中我们知道ℓ(θ) ≥ J(Q, θ)。 EM 能够看作是 J 的坐标上升法, E 步固定θ,优化Q, M 步固定Q优化θ。
以下从别人那偷了张图,非常好的说明了EM算法的优化过程: