信息
数据的信息属性是与任务相关的.
对于分类任务, 标签值(y)包含的信息量为:
[info(y) = - ln p(y)
]
其中, (p(y))为(y)出现的概率. (p(y))越小, (y)包含的信息量越大. 这是符合直觉的.
熵
熵定义为信息的期望值.
一个可以分为(m)类的数据集(S), 它的信息熵为随机得到的一个label包含的信息量的期望值:
[E(S) = -sum_{i = 1}^m p(y_i)ln p(y_i)
]
数据集的信息熵代表这个数据集的混乱程度. 熵越大, 越混乱.
信息熵增益
若按照某种特定的方式, 例如按照某一属性的值对(S)进行划分, 得到(n)个子集. (类比于形象的化学提纯操作, 就是利用目标物的某种性质(如气化温度)).
新的子集们都有自己的信息熵, 它们的熵的和与原(S)的熵的差值就是这个划分操作带来的信息熵增益.
[gain = E(S) - sum_{i = 1}^n E(S_i)
]
参考
- 机器学习实战(Machine Learning in Action), 第3章 决策树.