正文:
一、熵
熵是度量信息量的一个单位。
二、信息
信息是从多个可能状态中确定实际状态的代价
熵是一种不确定性。信息是消除不确定性
当一件事情有多种可能情况时,这件事情对某人而言具体是哪种情况的不确定性叫做熵
而消除该人对这件事情不确定的事物叫做信息
熵和信息的关系:数量相等,意义相反、获取信息=消除熵
举个例子:
当小明不会某道数学选择题时(正确答案是C)
正确答案(宏观态)是A,B,C,D 哪个选项(4个微观态)的不确定性就是熵。
宏观态是不考虑内部细节的状态,而微观态是考虑具体细节的状态
比如,生物是宏观态,动物和植物都是生物这个宏观态的一种微观态。
熵与信息的大小:
熵在A,B,C,D 所有可能情况(宏观态)都是等概率(1/4)时最大,在确定C了(实际情况)是100%后最小
能够消除不确定性的信息有三种类型,它们本质都是正确的调整每个可能情况(微观态)的概率。
第一种:能正确的调整某件事情的可能情况(微观态)的概率
举个例子:
小红告诉小明 “有一半的可能性是C”
这句话帮助小明将C选项的概率调整到了50%,就提供了信息(0.21 bits)
第二种:能正确的排除某件事情的干扰情况
小红告诉小明 “D选项是错的”
这句话帮助小明将D选项的概率调整到了0%(0.415 bits)
第三种:能够直接确定某件事情的实际情况
举个例子:
小红告诉小明 “正确答案是C”
是将C选项的概率调整到了100%(2 bits),这句话帮助小明从4种等概率情况确定了实际情况。
非信息:未能消除不确定性不叫信息。
举个例子:
小红告诉小明 “肯定是ABCD里的一项”(0 bit)
这句话没有帮助小明消除任何不确定性,信息为0.
那些不能够消除某人对某件事情不确定性的事物被称为数据或噪音。
噪音是干扰某人获取信息的事物。而数据是噪音与信息的混合,需要用知识将其分离。
熵与信息的性质:
媒介无关:同一个观察者,对同一件事情接受到的信息与用于传递信息的信号形式无关。
举个例子:
视觉信号:小红将写有 C 的 传纸条递给小明,提供 2 bits。 听觉信号:小红告诉小明答案是 C,提供 2 bits。 触觉信号:小红蹬小明椅子 3 次,提供 2 bits。
相对观察者:接收到的信息是相对于观察者已经对该件事情的实际了解程度而言的。
举个例子:
小红:会这道题,不管告不告诉小红正确答案是 C,小红对这道题的熵都为 0 bit。 因为观察者已经拥有这件事情的所有信息,不确定性从最初就不存在。 小明:不会这道题,熵为 2 bits 因为观察者没有关于这件事情的任何信息,不确定性最大,他需要从 4 种等概率情况里确定实际情况。 小虎:知道 D 是错的,熵为 1.58 bits 因为观察者拥有关于这件事情的部分信息,不确定性略小,他需要从 3 种等概率情况里确定实际情况。
客观物理量:虽然信息是相对于观察者而言的,但信息是客观的物理量,不随观察者的主观意识改变,只有确实了真正的实际情况时才是信息。
举个例子:
小虎认为 C 是错的,熵就不会降低。
因为这个“主观认为 C 是错的”并没有实际帮助小虎消除事情的不确定性。
相对于事件:信息(熵)还是相对于某件事件而言的
举个例子:
小明对“正确答案是ABCD 哪个选项”的熵是 2 bits。
小明对“正确答案属于 AB,还是属于DC ”的熵是 1 bit。
小红告诉小明“正确答案是 C”为小明确定正确答案提供了 2 bits 信息。
若想告诉别人,小红对小明说了什么,这件事情的熵不再是 2 bits,观察者也不再是小明,而是除小明和小红之外的观察者。
很多人在思考问题的时候,会不经意间切换所要思考的事情, 或者根本不知 大专栏 信息与熵道自己要思考什么事情,这会造成怎么想都想不明白。
概率和熵的区别:概率是某件事情(宏观态)某个可能情况(微观态)的确定性,而熵是某件事情(宏观态)到底是哪个情况(微观态)的不确定性。
概率的输入是常量(微观态),熵的输入是变量(宏观态)。
用一句话来说:
信息是从多个可能状态中确定实际状态所需的物理量
什么是单位?比如千克、摄氏度等用来测量质量、温度。
其实最初我们并不知道千克的质量,而是选择了一个参照物,把这个物体的质量就称为千克。
当想要测量其他物体的质量时,就看这个物体的质量相当于多少个参照物体的质量。
测量信息也是一样的。既然信息消除的是不确定性,那么就选择另一个事件的不确定性作为参照事件。
当想要测量其他事件的信息时,就看看待测事件的不确定性相当于 多少个 参照事件的不确定性。
这里的“多少个”便是信息量。
当选择的参照事件是:
2种等概率情况的事件,测得的信息量单位是bite,如抛硬币。
e种等概率情况的事件,测得的信息量单位事nat
10种扥概率情况的事件,测得的信息量单位是ban
但是计算过程与质量等并不相同。
比如
测量质量时,待测物体=10,参照物体=2,假设定义1单位参照物体的质量是1千克,那么待测物体的质量是10/2=5千克
测量信息时,不可以直接这样相除。源于不确定性的增加并不是线性关系。
比如抛掷硬币。掷1个硬币的可能性是2,掷2个硬币的可能性则是2^2=4,并非2*2,掷3个硬币的可能性是2^3=8
那么,如果 待测信息的可能性=8,那么以bite单位来衡量,应该是log_2 8 = 3 bite
举个更加通俗的例子,小明做一道试题,ABCD完全不知道应该选哪个,这种情况,对小明来说,就是4个不确定情况,
即待测信息的可能性=4,信息量就是log_2 4 = 2 bite
即,测量信息是以指数速度增长的。
但是使用上面的3个参照事件的前提是,被测事件和参照事件一样,所有的可能情况都必须是等概率的才行。
如果各个情况的概率不一样怎么办?
方法是:
分别测量 待测事件 每种可能情况的信息量后,乘以它们各自发生的概率,再相加即可
接下来面临的问题是:
如何测量 每种可能情况的信息量?
我们知道每种情况发生的概率,比如情况A发生的概率是5%,而5%的概率意味着从100个等概率情况中确定5个实际情况,即从20个等概率情况中确定实际情况,也就是等概率情况数量是20。
由此可见,概率的倒数等于等概率情况的个数:1/p
这样我们就又回到前面的情况下,那信息量的计算公式为:
所以当小明ABCD完全不知道选哪个,也没有其他信息时,信息量是 log_2 4 = 2 bite
当小明知道有50%的概率是C时,C的信息量是2,其他3个的概率则是1/6,所以计算结果是
信息和熵的关系:
某人对某物的熵(不确定性)相当于水杯,
信息相当于水,
新填充的水(新信息)要看被子原来有多少水(已有信息)
但水无法溢过杯子(能接收到的最大信息就是该人目前的剩余不确定性)
相对熵(KL divergence)是什么?
信息熵:
一条信息的信息量大小和它的不确定性有直接的关系。
比如,如果要搞清楚一件非常非常不确定的事,或是一无所知的事,就需要大量的信息。 相反,如果对某件事已经有较多的了解,不需要太多的信息就能把它搞清楚。 (还是说如果对一件事情不确定或者一无所知,那这个事件对我来说是含有很多信息量的?)(为什么是了解事情需要的功夫是这个事件的信息量呢?)
所以从这个角度,信息量的度量就等于不确定性的多少。
香农用“比特(bit)”这个概念来度量信息量。
一个比特是一位二进制数,一个字节是八个比特。
参考文献: 1、超智能体:https://mp.weixin.qq.com/s/8_XAK3Drrh7fDMQKdbePXA