信息熵(Entropy)、信息增益(Information Gain)

信息熵(Entropy)、信息增益(Information Gain)

参考自：Andrew Moore: http://www.cs.cmu.edu/~awm/tutorials

参考文档见：AndrewMoore_InformationGain.pdf

1、信息熵：H(X) 描述X携带的信息量。信息量越大（值变化越多），则越不确定，越不容易被预测。

对于抛硬币问题，每次有2种情况，信息熵为1

对于投骰子问题，每次有6中情况，信息熵为1.75

下面为公式：

　　其中log2(p)可以理解为p这个需要用几个bit位表示。如p(x1)=1/2, p(x2)=1/4, p(x3)=1/8, p(x4)=1/8,

可以用x1: 1, x2: 10, x3: 110, x4: 111表示，因为为了让平均的bit位最少，概率越大的bit为设的越短。而-log2(p)正好对应bit位数。

那么H(X)可以理解为比特位的期望值。

　　信息熵特点：（以概率和为1为前提哈）

　　a) 不同类别的概率分布越均匀，信息熵越大；

　　b) 类别个数越多，信息熵越大；

　　c) 信息熵越大，越不容易被预测；（变化个数多，变化之间区分小，则越不容易被预测）（对于确定性问题，信息熵为0；p=1; E=p*logp=0）

2、信息增益IG(Y|X): 衡量一个属性(x)区分样本(y)的能力。当新增一个属性(x)时，信息熵H(Y)的变化大小即为信息增益。 IG(Y|X)越大表示x越重要。

条件熵：H(Y|X)，当X条件下Y的信息熵

信息增益： IG(Y|X)=H(Y)-H(Y|X)

举例：

转载请注明出处： http://www.cnblogs.com/liyuxia713/
相关阅读:
如果应用程序正在通过 <identity impersonate="true"/> 模拟，则标识将为匿名用户(通常为 IUSR_MACHINENAME)或经过身份验证的请求用户
 Excel 表格文件打开是空白灰色的
 SQL Server 清理日志
 SQL Server 更新字段值为ROW_NUMBER()
Python错误：使用百度API报102错误{"status":102,"message":"MCODE参数不存在，mobile类型mcode参数必需"}
SQL Server 错误：修改表后保存时提示不允许保存更改
 SQL Server 错误：找不到SQL Server Configuration Manager配置管理工具
 Python错误：使用百度API报401错误{"status":401,"message":"当前并发量已经超过约定并发配额，限制访问"}
VBA错误：批量删除PPT的Shape对象时发现漏删了
 SQL Server 错误：无法连接到本地服务器
原文地址：https://www.cnblogs.com/liyuxia713/p/2749375.html