- 决策树 decision tree ,是一种监督式,非参数的机器学习算法,它可以用作分类器,也可以用作回归。当然,也可以从最终生成的书中学习规则。
- 决策树的构建,就是在寻找一种最简单的特征安排的拓扑结构,即在树中如何安置各个属性的位置。
- 决策树的基本思想:在构造书的每一步,选择导致“不纯度(impurity measure)降低最多”的划分方式。
- 决策树的三类具体算法:CART算法,ID3算法和C4.5算法
这三种算法的主要区别就在于对不纯度的定义不同:
CART算法:Gini指数
ID3算法:熵,熵(entropy)是一种不确定度的度量,在这里也可以用来表示不纯度,不纯度的降低就是熵增益,又叫做信息增益。
但是,单纯只用信息增益来进行划分会出现问题:偏向选择“具有多值属性”的划分,为了解决这个问题,出现了C4.5算法。
C4.5算法:利用信息增益率来代替ID3中的信息增益。