机器学习笔记—混合高斯和 EM 算法

机器学习笔记—混合高斯和 EM 算法

本文介绍密度估计的 EM(Expectation-Maximization，期望最大)。

假设有 {x⁽¹⁾,...,x^(m)}，因为是无监督学习算法，所以没有 y⁽ⁱ⁾。

我们通过指定联合分布 p(x⁽ⁱ⁾,z⁽ⁱ⁾)=p(x⁽ⁱ⁾|z⁽ⁱ⁾)p(z⁽ⁱ⁾) 来对数据建模。这里 z⁽ⁱ⁾~Multinomial(Φ)，其中 Φ_j≥0，Φ₁+Φ₂+...+Φ_k=1，参数 Φ_j 给定 p(z⁽ⁱ⁾=j)，x⁽ⁱ⁾|z⁽ⁱ⁾=j~N(μ_j,∑_j)。k 表示 z⁽ⁱ⁾ 能取的值的个数，所以，通过从 {1,...,k} 中随机选择 z⁽ⁱ⁾，x⁽ⁱ⁾ 从 k 个依赖于 z⁽ⁱ⁾ 的高斯中生成。这就是高斯混合模型。z⁽ⁱ⁾ 是隐随机变量，它们是隐藏的，这增大了估计问题的难度。

模型的参数是 Φ，μ 和 ∑，为对它们做估计，数据的似然为：

如果通过对参数求导并设为 0 来解，会发现不可能在封闭形式中找到最大似然估计。

随机变量 z⁽ⁱ⁾ 表示 x⁽ⁱ⁾ 来自 k 个高斯分布中的哪一个，如果知道 z⁽ⁱ⁾ 的值，最大似然估计问题就简单了

最大化后参数为：

可以看到，如果知道 z⁽ⁱ⁾，最大似然估计就跟高斯判别分析模型的参数估计差不多，除了 z⁽ⁱ⁾ 扮演类标识的角色。

尽管如此，在我们的密度估计问题中，z⁽ⁱ⁾ 是未知的，怎么办？

EM 算法是一个迭代算法，主要分两步：在 E 步，猜测 z⁽ⁱ⁾ 的值；在 M 步，基于猜测更新模型的参数。因为在 M 步假装第一步是正确的，最大化就变简单了。这是算法：

在 E 步，给定 x⁽ⁱ⁾，使用当前参数，用贝叶斯规则计算 z⁽ⁱ⁾ 的后验概率。

其中 p(x⁽ⁱ⁾|z⁽ⁱ⁾=j;μ;∑) 是由 x⁽ⁱ⁾ 的以 μ_j 为均值和 ∑_j 为方差的高斯密度估计出来的；p(z⁽ⁱ⁾=j;Φ) 是由 Φ_j 给定的。在 E 步计算的 w_j⁽ⁱ⁾ 代表 z⁽ⁱ⁾ 的软估计。

如果拿 M 步的更新同上面 z⁽ⁱ⁾ 已知时的公式做对比，它们是相等的，除了指示函数 I{z⁽ⁱ⁾=j} 以 w_j⁽ⁱ⁾ 代替。

EM 算法会让人想起 K-均值聚类，差别在于硬聚类绑定 c(i) 以软绑定 w_j⁽ⁱ⁾ 代替。同 K-均值类似，它也会陷入局部最优，所以多对初始参数赋几次值是个好主意。

很清楚，EM 算法对重复猜测未知 z⁽ⁱ⁾ 有一个非常自然的解释，但它能保证收敛吗？下篇文章将更广地介绍 EM，使我们可以把它应用到其它包含隐变量的估计问题，也会有收敛的证明。

参考资料：

1、http://cs229.stanford.edu/notes/cs229-notes7b.pdf
相关阅读:
视频: 不抱怨才有今天的马云---励志演讲
 ArcGIS图框工具5.2发布，支持ArcGIS10.0,10.110.2，支持国家2000坐标系
 arcgis 10.2 安装教程（含下载地址）
delete
基金销售牌照火热的背后，基金销售牌照、基金支付牌照
 快递业务经营许可证企业信息(截止2016.6.30)
1月北上广P2P平台之最平台数成交量现双降
 公募基金牌照：谁在布局？
delete
各地互联网小贷牌照申请全揭秘
原文地址：https://www.cnblogs.com/NaughtyBaby/p/5368855.html