在generative model中,一般通过maximum likelihood来学习模型参数。含有隐藏变量时就需要将隐藏变量marginalize out,用marginal likelihood (p(x) = sum_h p(x, h))。对于log-likelihood,以下这个变换式是一个很常见的结论
$$egin{align*}log sum_h p(x,h) &= log p(x)\ &= sum_h q(h) log p(x) \ &= sum_h q(h) log frac{p(x,h)}{p(h|x)} \ &= sum_h q(h) log frac{p(x,h)}{q(h)}frac{q(h)}{p(h|x)} \ &= sum_h q(h)log p(x,h) - sum_h q(h) log q(h) + sum_h q(h)log frac{q(h)}{p(h|x)} \ &= mathbb{E}_q[log p(x,h)] + mathcal{H}(q) + mathrm{KL}(q(h)||p(h|x))end{align*}$$
这里(q)是任意概率分布,(mathbb{E}_q)是在(q(h))下的期望,(mathcal{H}(q))是(q)的熵,KL代表KL-divergence。第二个等式是因为(sum_h q(h)=1),第三个等式是因为(p(x,h)=p(x)p(h|x))对任意h成立。
由于KL-divergence恒为非负,由上面这个式子就可以得到一个(log p(x))的下界(variational lower bound)
$$log p(x) ge mathbb{E}_q[log p(x,h)] + mathcal{H}(q) = sum_h q(h) log p(x,h) - sum_h q(h) log q(h)$$
这个下界的好坏和(q)的选取有很大关系,选取一个不好的(q)可以使这个界非常松,而当(q(h)=p(h|x))时,KL-divergence为零,左右两边相等。
对于含隐藏变量的模型来说(p(x))往往难以计算,因为将(h) marginalize out的操作涉及到一个指数量级的求和(另一方面,若(p(x))容易求则不需要隐藏变量模型了)。对于大部分含隐藏变量的模型,(p(h|x))也难以计算("explaining away"),于是常常用一个更容易求的(q(h))来做近似。例如mean-field inference就用一个factorial distribution (q(h)=prod_i q_i(h_i))来做近似,通过优化上面的下界可以找到所有factorial distribution中的最优近似。
今天要提到的是上面对于(log sum_h p(x,h))的变换式其实可以generalize。有两点:(1)不需要x;(2)不需要p是一个概率分布(不需要归一化)。上面变换的核心是把log中对(h)的求和变到log外,更泛化的形式是对(log sum_h exp(f_x(h)))的变换。对上面的讨论,(f_x(h)=log p(x,h))。下面的讨论中忽略(x),而考虑任意函数(f(h)):
$$egin{align*}log sum_h exp(f(h)) &= log sum_h q(h) frac{exp(f(h))}{q(h)}\ &ge sum_h q(h)log frac{exp(f(h))}{q(h)}end{align*}$$
其中(q(h))为任意概率分布,第二式用到了Jensen's inequality。左右两边的差值为
$$egin{align*}log sum_h exp(f(h)) - sum_h q(h)log frac{exp(f(h))}{q(h)} &= sum_h q(h) log sum_{h'} exp(f(h')) - sum_h q(h)log frac{exp(f(h))}{q(h)} \ &= sum_h q(h) log q(h)frac{sum_{h'} exp(f(h'))}{exp(f(h))}\ &= sum_h q(h)log frac{q(h)}{exp(f(h))/sum_{h'} exp(f(h'))}end{align*}$$
若定义(p^*(h)=frac{exp(f(h))}{sum_{h'} exp(f(h'))}),则(p^*)显然是一个概率分布,而上式即为(mathrm{KL}(q||p^*))。
因此,我们有变换式
$$log sum_h exp(f(h)) = sum_h q(h) log frac{exp(f(h))}{q(h)} + mathrm{KL}(p||q^*) = mathbb{E}_q[f(h)] + mathcal{H}(q) + mathrm{KL}(q||p^*)$$
将(f(h)=log p(x,h))带入,即得到(p^*(h)=p(h|x)),且上面的变换式就是我们之前得到的变换式。由此,任意(log sum_h exp(f(h)))形式的式子都可以有一个variational lower bound,也可以用一系列相应的方法来进行优化了。