EM算法(Expectation Maximization Algorithm)

EM算法(Expectation Maximization Algorithm)
EM算法(Expectation Maximization Algorithm)

1. 前言

这是本人写的第一篇博客(2013年4月5日发在cnblogs上,现在迁移过来)，是学习李航老师的《统计学习方法》书以及斯坦福机器学习课Andrew Ng的EM算法课后，对EM算法学习的介绍性笔记，如有写得不恰当或错误的地方，请指出，并多多包涵，谢谢。另外本人数学功底不是很好，有些数学公式我会说明的仔细点的，如果数学基础好，可直接略过。

2.基础数学知识

在正式介绍EM算法之前，先介绍推导EM算法用到的数学基础知识，包括凸函数，Jensen不等式。

2.1.凸函数

对于凸函数，凹函数，如果大家学过高等数学，都应该知道，需要注意的是国内教材如同济大学的《高等数学》的这两个概念跟国外刚好相反，为了能更好的区别，本文章把凹凸函数称之为上凸函数，下凸函数，具体定义如下：

上凸函数：函数

更直观的可以看图2.1和2.2：

图2.1. 上凸函数图2.2. 下凸函数

可以清楚地看到图2.1上凸函数中，

2.2.Jensen不等式

有了上述凸函数的定义后，我们就能很清楚的Jensen不等式的含义，它的定义如下：

如果f是上凸函数，

那么很明显

3.EM算法所解决问题的例子

在推导EM算法之前，先引用《统计学习方法》中EM算法的例子：
例1. (三硬币模型)假设有3枚硬币,分别记作

解：设随机变量

P(y|θ)=πpy(1−p)1−y+(1−π)qy(1−q)1−y
有
P(Y|θ)=∏nj=1[πpyj(1−p)1−yj+(1−π)qyj(1−q)1−yj]

θˆ=argmaxθlogP(Y|θ)=argmaxθ∑j=110logP(yj|θ)=argmaxθ∑j=110log[πpyj(1−p)1−yj+(1−π)qyj(1−q)1−yj](1)(2)(3)

l(θ)=∑j=110log∑i=12P(yj,zi∣θ)=∑j=110log∑i=12Qj(zi)P(yj,zi∣θ)Qj(zi)≥∑j=110∑i=12Qj(zi)logP(yj,zi∣θ)Qj(zi)(4)(5)(6)

∑i=12P(yj,zi∣θ)=P(yj∣θ)=πpyj(1−p)1−yj+πqyj(1−q)1−yj

Q(zi)=P(yj,zi∣θ)/∑iP(yj,zi∣θ)=P(yj,zi)/P(yj∣θ)=P(zi∣yj,θ)

Qj(z1)=πpyj(1−p)1−yjπpyj(1−p)1−yj+(1−π)qyj(1−q)1−yjQj(z2)=(1−π)qyj(1−q)1−yjπpyj(1−p)1−yj+(1−π)qyj(1−q)1−yj
两组值的最后结果不相同，这说明EM算法对初始值敏感，选择不同的初值可能会有不同的结果，只能保证参数估计收敛到稳定点。因此实际应用中常用的办法就是选取多组初始值进行迭代计算，然后取结果最好的值。
在进行下部分内容之前，还需说明下一个东西。在上面的举例说明后，其实可以发现上述的解决方法跟一个简单的聚类方法很像，没错，它就是K-means聚类。K-means算法先假定k个中心，然后进行最短距离聚类，之后根据聚类结果重新计算各个聚类的中心点，一次迭代，是不是很像，而且K-means也是初始值敏感，因此其实K-means算法也包含了EM算法思想，只是这边EM算法中用P概率计算，而K-means直接用最短距离计算。所以EM算法可以用于无监督学习。在下一篇文章，我准备写下典型的用EM算法的例子，高斯混合模型(GMM,Gaussian Mixture Model)。

4.EM算法

4.1.模型说明

考虑一个参数估计问题，现有

l(θ)=∑j=1nlogP(yj|θ)

可能因为

4.2.EM算法推导

这小节会对EM算法进行具体推导，许多跟上面例子的解法推导是相同的，如果已经懂了，可以加速阅读。首先跟“三硬币模型”一样，加入隐变量

l(θ)=∑j=1nlog∑i=1P(yj,zi∣θ)=∑j=1nlog∑i=1Q(zi)P(yj,zi∣θ)Q(zi)≥∑j=1n∑i=1Q(zi)logP(yj,zi∣θ)Q(zi)(7)(8)(9)

∑iP(yj,zi∣θ)/c=1⇒∑iP(yj,zi∣θ)=c⇒Qj(zi)=P(yj,zi∣θ)/∑iP(yj,zi∣θ)=P(yj,zi∣θ)/P(yj∣θ)=P(zi∣yj,θ)

EM 算法(1)
选取初始值
$Q t j (z i) = P (y j, z i ∣ θ t)$ M步：
$θ t + 1 t = a r g$

4.3.EM算法收敛性证明

当

θt+1=argmaxθ∑j=1n∑iQtj(zi)logP(yj,zi∣θ)Qtj(zi)

l(θt+1)=∑j=1nlog∑iQtj(zi)P(yj,zi∣θt+1)Qtj(zi)≥∑j=1n∑iQtj(zi)logP(yj,zi∣θt+1)Qtj(zi)≥∑j=1n∑iQtj(zi)logP(yj,zi∣θt)Qtj(zi)(10)(11)(12)

4.4. EM算法E步说明

上述EM算法描述，主要是参考Andrew NG教授的讲义，如果看过李航老师的《统计方法学》，会发现里面的证明以及描述表明上有些许不同，Andrew NG教授的讲义的说明（如上述）将隐藏变量的作用更好的体现出来，更直观，证明也更简单，而《统计方法学》中则将迭代之间θ的变化罗列的更为明确，也更加准确的描述了EM算法字面上的意思：每次迭代包含两步：E步，求期望；M步，求极大化。下面列出《统计方法学》书中的EM算法，与上述略有不同：

EM算法 (1)：
选取初始值θ0初始化θ，t=0
Repeat {
E步：
$H (θ, θ t) = E z [l o g P (Y, Z ∣ θ) ∣ Y, θ t]$ M步： $θ t + 1 = a r g$

5.小结

EM算法的基本思路就已经理清，它计算是含有隐含变量的概率模型参数估计，能使用在一些无监督的聚类方法上。在EM算法总结提出以前就有该算法思想的方法提出，例如HMM中用的Baum-Welch算法就是。
在EM算法的推导过程中，最精妙的一点就是

6.主要参考文献

[1]:Rabiner L, Juang B. An introduction to hidden markov Models. IEEE ASSP Magazine, January 1986，EM算法原文

[2]:http://v.163.com/special/opencourse/machinelearning.html，Andrew NG教授的公开课中的EM视频

[3]:http://cs229.stanford.edu/materials.html, Andrew NG教授的讲义，非常强大，每一篇都写的非常精炼，易懂

[4]:http://www.cnblogs.com/jerrylead/archive/2011/04/06/2006936.html, 一个将Andrew NG教授的公开课以及讲义理解非常好的博客，并且我许多都是参考他的

[5]:http://blog.csdn.net/abcjennifer/article/details/8170378, 一个浙大研一的女生写的，里面的博客内容非常强大，csdn排名前300，ps:本科就开博客，唉，我的大学四年本科就给了游戏，玩，惭愧哈，导致现在啥都不懂。
相关阅读:
全代码实现ios-4
集训第一次周赛题目及题解
 网站登录时密码忘记，通过向邮箱发送验证链接实现重置密码的实现方法
 hdu 1861-游船出租
 c#获取或修改配置文件
 今天做php经典实例，发现，我是对的，面试官给我说错了
 HDU 4637 Rain on your Fat brother 线段与半圆和线段交简单题
 Qt之图标切分与合并
 标准容器的共性及举例
 如何提高数据库update更新的速度
原文地址：https://www.cnblogs.com/yymn/p/4769769.html

EM算法(Expectation Maximization Algorithm)

EM算法(Expectation Maximization Algorithm)

1. 前言

2.基础数学知识

2.1.凸函数

2.2.Jensen不等式

3.EM算法所解决问题的例子

4.EM算法

4.1.模型说明

4.2.EM算法推导

4.3.EM算法收敛性证明

4.4. EM算法E步说明

5.小结

6.主要参考文献