• 信息与最大熵模型


    一、信息的度量和作用

    1.1 信息熵

    一条信息的信息量与其不确定性有直接关系。当我们需要搞清一件非常不确定性的事,就需要了解大量的信息;相反,当我们对某一件事了解较多时,不需要太多的信息就可以把它搞清楚。从这个角度来看,信息量就是等于不确定性的多少。

    当让我们猜测世界杯决赛中1-32号球队谁是冠军时,假设我们每猜测一次,对方告诉我们对或者不对,这样我们根据二分方法,一共需要猜测5次。那么实际中,可能并不需要猜测5次,应为像德国这样的球队得到冠军的可能性比日本这样的队高得多,这道这些信息后,我们可能只需要猜测3、4次就可以猜中。

    香农指出,对任意一个随机变量(X),它的熵(Entropy)定义为

    [H(X)=-sum _{x in X}P(x)logP(x) ]

    熵满足不等式

    [0 leq H(X) leq log|X| ]

    其中(|X|)(X)取值的个数,当且仅当(X)服从均匀分布时等号成立,也就是说,(X)服从均匀分布时,熵最大。

    1.2 信息的作用

    信息是消除不确定性的唯一方法。当我们知道事件信息更多,我们对事件了解程度越高。假定一个事件的不确定性为(U),从外部消除这个不确定性的方法是引入信息(I),而需要引入的信息量取决于这个不确定性的大小,当(I<U)时,可以消除一部分不确定性,也就是新的不确定性为

    [U'=U-I ]

    (I geq U) 时,不确定性才能完全消除。需要注意的是,只有引入和当前研究问题相关的信息才可以消除不确定性。下面引入条件熵的概念。

    假定(X,Y)是两个随机变量,(X)是我们需要了解的,现在知道(X)的概率分布(P(X)),以及(X,Y)的联合概率分布(P(X,Y))(X)(Y)下的条件概率分布(P(X|Y)),定义在(Y)下的条件熵为

    [H(X|Y)=-sum_{x in X, y in Y}P(x,y)logP(x|y) ]

    满足(H(X) geq H(X|Y)),也就是多了(Y)的信息后,(X)的不确定性下降了。

    1.3 互信息

    当获取的信息要和研究的事物"有关系"时,这些信息才能帮助我们消除不确定性。在这里将会给出有关系的精确定义,香农在信息论中提出了“互信息”的概念作为两个随机时间的“相关性“的量化度量。假定有两个随机时间(X)(Y),他们的互信息定义为

    [I(X;Y)=sum_{x in X,y in Y}P(x,y);logfrac{P(x,y)}{P(x)P(y)} ]

    其实这个互信息就是随机变量(X)的不确定性或者说熵(H(X)),以及在知道随机事件(Y)条件下的不确定性,或者说条件熵(H(X|Y))之间的差异

    [I(X;Y)=H(X)-H(X|Y) ]

    1.4 相对熵

    相对熵也是信息论中的重要概念。相对熵也被称作交叉熵(Relative Entropy 或者 Kullback-Leibler Dibergence)。相对熵也是来衡量相关性,但是和互信息不同的是,它是用来衡量两个取值为正数的函数的相似性,定义为

    [KL(f(x)||g(x))=sum_{x in X}f(x); logfrac{f(x)}{g(x)}) ]

    需要注意的是

    [KL(f(x)||g(x)) ot = KL(g(x)||f(x)) ]

    有时候为了方便,将上面两个式子取平均

    [JS(f(x)||g(x))=frac{1}{2}[KL(f(x)||g(x)) +KL(g(x)||f(x))] ]

    对于相对熵,只需要记住以下三条:

    • 对于两个完全相同的函数,他们相对熵为零
    • 相对熵越大,两个函数差异性越大;反之,相对熵差异性越小,两个函数差异性越小。
    • 对于概率分布或者概率密度函数,如果取值均大于零,相对熵可以度量两个随机分布的差异

    二、最大熵模型

    2.1 最大熵模型的原理

    论投资,人们常说不要把所有的鸡蛋放在一个篮子里,这样可以降低风险,这个原理在数学上被称作最大熵模型。说白了就是要保留不确定性,让风险降到最小。

      对于一个6个面的筛子,当我们不知道更多信息时,我们认为在一次投掷中每个面朝上的概率是(frac{1}{6})。为什么这样认为呢?因为对于这个一无所知的筛子,假定它每一个面朝上概率均等是最安全的做法。从投资的角度来看,这就是风险最小的做法。从信息论角度来看,就是保留了最大的不确定性,也就是熵最大。进一步的,我们知道这颗筛子很特殊,已知四点朝上的概率是(frac{1}{3}),这种情况下,每个点朝上的概率是多少呢?这时候认为除了已知的四点朝上的概率是(frac{1}{3})外,其余点概率是(frac{2}{15}),这就是说对对已知条件(四点朝上概率为(frac{1}{3}))必须满足,而对其余点一无所知,因而保险的做法是认为他们均等。

      最大熵原理指出,对一个随机事件概率分布进行预测时,我们的预测应当满足全部的已知条件,而对未知情况不做任何主观假设。

  • 相关阅读:
    (二十)WebGIS中图层树功能的设计和实现
    WebGIS中矢量切图的初步研究
    百度兴趣点下载工具设计和实现
    服务端常规知识详解
    Shp数据批量导入Postgresql工具的原理和设计
    浅谈C#中一种类插件系统编写的简单方法(插件间、插件宿主间本身不需要通信)
    从底层开发谈WebGIS中实现地理长度固定的可视窗口的思路和方法
    用存储过程判断某个人员在一天的行进轨迹中是否有超过指定时间的停留
    Linux启动与禁止SSH用户及IP的登录
    JVM中的垃圾回收
  • 原文地址:https://www.cnblogs.com/td15980891505/p/7676206.html
Copyright © 2020-2023  润新知