• 《数学之美》——第六章 个人笔记


    第六章     信息的度量和作用

    1    信息熵

    从一个角度可以认为信息量就等于不确定性的多少。

    信息熵(Entropy),一般用符号H表示,单位是比特。

    熵的定义:

    变量的不确定性越大,熵也就越大。

    文中有个关于冗余度的:重复的内容很多,信息量就小,冗余度就大。

    2    信息的作用

    一个事物内部会存有随机性,也就是不确定性:U。引入信息 I 消除不确定性,而信息量取决于U的大小。当 I < U 时,可以消除一部分不确定性,也就是说新的不确定性:U' = U - I 。

    ⭐条件熵

    假设X和Y是两个随机变量,已知X的随机分布P(X),那么也就知道了X的熵。现在还知道Y和X的联合概率密度,以及在Y取不同值的前提下X的概率分布,即条件概率分布。定义在Y的条件下的条件熵为:

    H(X) >= H(X丨Y),也就是说多了Y的信息之后,关于X的不确定性下降了。在统计语言模型中,如果把Y看成是前一个字,那么在数学上就证明了二元模型的不确定性小于一元模型。同理,三元模型比二元好。(用条件熵解释了模型复杂度

    ⭐信息的作用在于消除不确定性,NLP的大量问题就是寻找相关的信息。

    3    互信息

    互信息(Mutual Information):作为两个随机事件“相关性”的量化度量。

    假定有两个随机事件X 和 Y ,它们的互信息定义如下:

    4   延伸阅读:相对熵(交叉熵)

    相对熵用来衡量两个取值为正数的函数的相似性,定义:

    三个结论:

    ①对于两个完全相同的函数,它们的相对熵是零。

    ②相对熵越大,两个函数差异越大;反之,则相反。

    ③对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异性。

    ⭐相对熵是不对称的:

    为了计算方便:将上面的不等式两边取平均,即

  • 相关阅读:
    数据结构_bubble_sort
    数据结构_sfdg(小F打怪)
    数据结构_yjjsj(伊姐姐数字游戏)
    数据结构 queue
    数据结构 Job
    数据结构 happiness
    数据结构_calculator
    js并归排序的思路
    js神秘的电报密码---哈弗曼编码
    js同时获得数组的两个最小值
  • 原文地址:https://www.cnblogs.com/NEWzyz/p/8933779.html
Copyright © 2020-2023  润新知