• 机器学习(三十六)— KL散度不对称讨论


    问题:如果分布P和Q,KL(P||Q)很大而KL(Q||P)很小表示什么现象?

    还是看定义吧。
    [公式]
    直观来说,这是对随机变量的每个取值上,[公式]这个值的加权平均。这里加权的权值是[公式] (其实就是算了个期望)。

    [公式]大的地方,想让KL散度小,我们需要让[公式]的值尽量也大;而当[公式]本身小的时候,[公式]对整个KL的影响却没有那么大(因为log项本身因为分子就很小,再加上乘以了很小的[公式])。直观来说就是,在P的概率密度大的地方,它应该尽量和Q概率密度大的区域保持一致以保证KL散度小,而在P概率密度很小的地方,P和Q的差别对KL的影响很小。

    画图来说(懒得画了),就是P高的地方应该和Q的形状尽量一致,但P低的地方就无所谓了。 的解释可能更接近信息论受众的理解,我这里试着给一个概率的理解:
    * KL(P||Q) 很大,意味着在P事件大概率时,Q事件不一定有大概率;
    * KL(Q||P) 很小,意味着当Q事件有大概率时,P事件同样有大概率。
    造成这种现象的一种可能的成因是:Q是造成P的多种原因之一,所以当Q发生时(高概率),P也发生(高概率);而P还有其他的成因,所以当P发生时,Q不一定会发生。当然理解成从属/包含关系也是另一种可行的思路:Q是P的子集,所以Q发生时P一定发生,而P发生时,有可能是PQ中的某些事件发生了,所以Q不一定发生。

    参考文献:知乎回答

  • 相关阅读:
    对scott中emp表进行各种操作
    可兼容的事件绑定方法
    深度复制
    原型链的继承
    如何在github上发布自己的项目
    用单例连接oracle数据库
    Struts2之输入验证
    JSP之监听器Listener(二)
    JSP之监听器Listener(一)————————ServletContextListener
    JSP之过滤器Filter
  • 原文地址:https://www.cnblogs.com/eilearn/p/14868579.html
Copyright © 2020-2023  润新知