gain 基尼系数

转至：http://blog.csdn.net/bitcarmanlee/article/details/51488204

在信息论与概率统计学中，熵（entropy）是一个很重要的概念。在机器学习与特征工程中，熵的概念也用得灰常多。今天就把跟熵有关的东东稍微整理一下，权当笔记。

1.信息熵

熵是神马东东？信息论的开山祖师爷Shannon（中文翻译过来一般叫香农，总觉得很多文字经过翻译就不对劲，就跟人家老外翻译贱人就是矫情一样，感觉怪怪的。所以咱们还是用英文了，偷偷装个小逼）明确告诉我们，信息的不确定性可以用熵来表示：
对于一个取有限个值的随机变量X，如果其概率分布为：

P (X = x i) = p i, i = 1, 2, \dots, n

那么随机变量X的熵可以用以下公式描述：

H (X) = - \sum i = 1 n p i log p i

每次看到这个式子，都会从心底里感叹数学的伟大与奇妙。在这之前，信息这东东对于人们来说，是个看着好像挺清晰实际还是很模糊的概念。Shannon用最简洁美妙的方式，告诉了整个世界信息到底应该怎么去衡量去计算。今天每个互联网人都知道，这个衡量的标准就是bit。正是由于bit的出现，才引领了我们今天信息时代的到来。所以即使把Shannon跟世界上最伟大的那些科学家相提并论，我觉得也丝毫不为过。

举个例子，如果一个分类系统中，类别的标识是

H (c) = - \sum i = 1 n p (c i) \cdot log 2 p (c i)

H (c) = p (c 0) log 2 p (c 0) + p (c 1) log 2 p (c 1)

2.条件熵(Conditional Entropy)与信息增益（Information Gain）

第一节我们谈到，信息的不确定性我们用熵来进行描述。很多时候，我们渴望不确定性，渴望明天又是新的一天，希望寻找新的刺激与冒险，所谓的七年之庠就是最好的例子。但是又有很多时候，我们也讨厌不确定性，比如现在的RTB广告，很多时候广告主其实希望不管什么情况下，这个广告位都是归我所有来投广告，别人都别跟我来抢，我把广告素材准备好以后，媒体按排期给我播就行了。所以在这种情况下，我们又要竭力去消除系统的不确定性。

那怎么样去消除系统的不确定性呢？当我们知道的信息越多的时候，自然随机事件的不确定性就越小。举个简单的例子：
如果投掷一枚均匀的筛子，那么筛子出现1-6的概率是相等的，此时，整个系统的熵可以表述为：

H (c) = - 1 6 log 2 1 6 \times 6 = log 2 6

H (c) = - 1 3 log 2 1 3 \times 3 = log 2 3

因为我们加了一个特征x：结果为偶数，所以整个系统的熵减小，不确定性降低。

来看下条件熵的表达式：
1.当特征

H (c | X) = - p (x = x 1) H (c | x = x 1) - p (x =

其中，n为特征

那么因为特征X被固定以后，给系统带来的增益(或者说为系统减小的不确定度)为：

I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2

举个别人文章中例子：文本分类系统中的特征X,那么X有几个可能的值呢？注意X是一个固定的特征，比如关键词”经济”，当我们说特征”经济”可能的取值时，实际上只有两个，要么出现，要么不出现。假设

H (C | X) = - p (x) H (c | x) - p (x ¯) H (C | x ¯

特征

I G (X) = H (c) - H (c | X) = - \sum i = 1 n p (c i) log 2

式子看上去很长，其实计算起来很简单，都是一些count的操作。

3.信息增益做特征选择的优缺点

先来说说优点：
1.信息增益考虑了特征出现与不出现的两种情况，比较全面，一般而言效果不错。
2.使用了所有样例的统计属性，减小了对噪声的敏感度。
3.容易理解，计算简单。

主要的缺陷：
1.信息增益考察的是特征对整个系统的贡献，没有到具体的类别上，所以一般只能用来做全局的特征选择，而没法针对单个类别做特征选择。
2.只能处理连续型的属性值，没法处理连续值的特征。
3.算法天生偏向选择分支多的属性，容易导致overfitting。

4.信息增益比(Infomation Gain Ratio)

前面提到，信息增益的一个大问题就是偏向选择分支多的属性导致overfitting，那么我们能想到的解决办法自然就是对分支过多的情况进行惩罚(penalty)了。于是我们有了信息增益比，或者说信息增益率：
特征

H (X) = - \sum i = 1 n p i log p i

I G (X) = H (c) - H (c | X)

g r = H ( c ) - H ( c | X ) H ( X )

在决策树算法中，ID3使用信息增益，c4.5使用信息增益比。

5.Gini系数

Gini系数是一种与信息熵类似的做特征选择的方式，可以用来数据的不纯度。在CART(Classification and Regression Tree)算法中利用基尼指数构造二叉决策树。
Gini系数的计算方式如下：

G i n i (D) = 1 - \sum i = 1 n p 2 i

Δ G i n i (X) = G i n i (D) - G i n i X (D)