机器学习（三十六）— KL散度不对称讨论

机器学习（三十六）— KL散度不对称讨论

问题：如果分布P和Q，KL(P||Q)很大而KL(Q||P)很小表示什么现象？

还是看定义吧。
$KL(P||Q) = sum_i P(i) log left(P(i) over Q(i) ight)$
直观来说，这是对随机变量的每个取值上， $log(P(i)/Q(i))$ 这个值的加权平均。这里加权的权值是 $P(i)$ （其实就是算了个期望）。

在 $P(i)$ 大的地方，想让KL散度小，我们需要让 $Q(i)$ 的值尽量也大；而当 $P(i)$ 本身小的时候， $Q(i)$ 对整个KL的影响却没有那么大（因为log项本身因为分子就很小，再加上乘以了很小的 $P(i)$ ）。直观来说就是，在P的概率密度大的地方，它应该尽量和Q概率密度大的区域保持一致以保证KL散度小，而在P概率密度很小的地方，P和Q的差别对KL的影响很小。
画图来说（懒得画了），就是P高的地方应该和Q的形状尽量一致，但P低的地方就无所谓了。

@Earthson Lu

的解释可能更接近信息论受众的理解，我这里试着给一个概率的理解：
* KL(P||Q) 很大，意味着在P事件大概率时，Q事件不一定有大概率；
* KL(Q||P) 很小，意味着当Q事件有大概率时，P事件同样有大概率。
造成这种现象的一种可能的成因是：Q是造成P的多种原因之一，所以当Q发生时（高概率），P也发生（高概率）；而P还有其他的成因，所以当P发生时，Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路：Q是P的子集，所以Q发生时P一定发生，而P发生时，有可能是PQ中的某些事件发生了，所以Q不一定发生。

参考文献：知乎回答
相关阅读:
对scott中emp表进行各种操作
 可兼容的事件绑定方法
 深度复制
 原型链的继承
 如何在github上发布自己的项目
 用单例连接oracle数据库
 Struts2之输入验证
 JSP之监听器Listener(二)
JSP之监听器Listener(一)————————ServletContextListener
JSP之过滤器Filter
原文地址：https://www.cnblogs.com/eilearn/p/14868579.html

机器学习（三十六）— KL散度不对称讨论

问题：如果分布P和Q，KL(P||Q)很大而KL(Q||P)很小表示什么现象？