信息论中的一些基本的知识

信息论中的一些基本的知识

（以下内容来自维基百科：）

自信息：由克劳德·香农提出，是与概率空间中的单一事件或离散随机变量的值相关的信息量的量度。它的定义为：一个随机产生的事件所包含的自信息数量，只与事件发生的概率相关。事件发生的概率越低，在事件真的发生时，接收到的信息中，包含的自信息越大。此外，根据定义，自信息的量度是正的而且是可加的。如果事件 C 是两个独立事件 A 和 B 的交集，那么宣告 C 发生的信息量就等于分别宣告事件 A 和事件 B 的信息量的和：I(A ∩ B)=I(A)+I(B).

所以，考虑以上的性质，就定义了自信息，用 I 表示：假设事件 x 发生的概率为P（x），则自信息符号定义为：

I（x） = log(1 / p（x））= -log（p（x））。

注意：在以上定义中，没有指定对数的基底。如果以 2 为底，单位是bit。当使用以 e 为底的对数时，单位将是 nat。对于基底为 10 的对数，单位是 hart。

互信息：在概率论和信息论中，两个随机变量的互信息（Mutual Information，简称MI）或转移信息（transinformation）是变量间相互依赖性的量度。不同于相关系数，互信息并不局限于实值随机变量，它更加一般且决定着联合分布 p(X,Y) 和分解的边缘分布的乘积 p(X)p(Y) 的相似程度。互信息是点间互信息（PMI）的期望值。互信息最常用的单位是bit。一般地，两个离散随机变量 X 和 Y 的互信息可以定义为：

在连续随机变量的情形下，求和被替换成了二重定积分：

互信息与熵的关系：

信息熵：用一句话说，为随机事件x的自信息的期望就是信息熵，它是一个事件的不确定的度量。它的符号定义为：

H(x) = E[I(x)] = E[-log( p(x) ) ]

当取自有限的样本时，熵的公式可以表示为：

熵的极值：当所有符号等可能出现的情况下，熵达到最大值（所有可能的事件等概率时不确定性最高）。

条件熵：

在信息论中，条件熵描述了在已知第二个随机变量X 的值的前提下，随机变量Y的信息熵还有多少。基于条件X 的Y的信息熵，用H（Y|X) 表示。

它的定义：（我觉得写的很好）

下面是链式法则与贝叶斯规则：

相对熵：又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence）。

在概率论或信息论中，KL散度( Kullback–Leibler divergence)，又称相对熵（relative entropy)，是描述两个概率分布P和Q差异的一种方法。它是非对称的，这意味着D(P||Q) ≠ D(Q||P)。特别的，在信息论中，D(P||Q)表示当用概率分布Q来拟合真实分布P时，产生的信息损耗，其中P表示真实分布，Q表示P的拟合分布。

下面是它的的物理意义：来自百度百科：

交叉熵：英文名为 cross-entropy：它的意义是什么？描述了如果一个潜在的样本有两个分布，一个是q(它不是真正的），一个是p（它是真正的）,当我们用q分布来编码p分布的样本时，需要的编码长度。它的定义为：

离散情况下为：

又可以表示为：

什么意思呢？

具体可以看知乎上的回答，写的很不错的：https://www.zhihu.com/question/41252833。
相关阅读:
5月7日 python学习总结 MySQL数据库（一）
5月4日 python学习总结 socketserver
5月2日 python学习总结 IO模型
 4月28日 python学习总结线程与协程
 4月27日 python学习总结 GIL、进程池、线程池、同步、异步、阻塞、非阻塞
 4月26日 python学习总结 JoinableQueue、线程、三种锁
 4月25日 python学习总结互斥锁 IPC通信和生产者消费者模型
 4月24日 python学习总结多进程与子进程
 DataNode数据处理中心DataXceiver
DataNode数据处理中心DataXceiver
原文地址：https://www.cnblogs.com/yinheyi/p/6426431.html