超详细的EM算法理解 (好理解,加精)
梯度下降和EM算法:系出同源,一脉相承 (刷新认识,连接很多知识点)
EM算法存在的意义是什么? - 史博的回答 - 知乎 (理解后,可通天)
混合高斯模型(Mixtures of Gaussians)和EM算法
从最大似然到EM算法浅解(******)
EM vs VAE:
不同点:
1) EM是适合解具有隐变量的分布估计;VAE本身就是将观察变量编码为隐变量;
2)构造下界时,EM用的是Jesen不等式(为了利用Jesen不等式,需要构造凸函数和期望的形式,参考超详细的EM算法理解),VAE用的是KL散度;
3) 下界等式成立的形式不同,这也是由于他们构造的方式不同造成的,Jesen不等式等式成立的条件是凸函数变成一个常数函数,KL散度等于0成立的条件是构造的Q(z)分布与真实的$p(z|x; heta)$的分布相一致;
4)EM是将不好求导的似然函数,通过Jesen不等式转为比较好求导的形式(即,将ln计算移到求和公式的内部),然后再进行求导操作(对应Maximization步骤),而VAE是将不好优化的最大似然函数,转为证据下界(ELBO,证据指的是观察变量X的似然概率),并分解为编码器Encoder和解码器Decoder,然后利用深度神经网络拟合这两部分,从而实现最大化似然函数;
相同点:
1) 都是通过最大化似然估计来学习模型的参数;
2)直接最大化似然函数比较难,都是找一个近似的下界,通过不断优化这个下界来最大化似然函数;
3)EM 和 VAE都构造了一个分布Q(z); 尽管下界等式成立的形式不同,但是他们成立时的最终结果是一致的,即,当下界的等号成立时,Q(z)等于$p(z|x; heta)$;