统计学习方法第五章 决策树
树的剪枝算法
5.5 CART算法
分类与回归树模型是应用广泛的决策树学习方法。
CART由特征选择、树的生成以及剪枝组成,既可以用于分类也可以用于回归。
以下将用于分类与回归的树统称为决策树。
算法5.5 最小二乘回归树生成算法
定义 5.4 基尼指数
决策树学习旨在构建一个与训练数据拟合很好,并且复杂度小的决策树。
决策树学习算法包括3部分:特征选择、树的生成和树的剪枝。常用的算法有ID3、C4.5和CART。
特征选择的目的在于选取对训练数据能够分类的特征。特征选择的关键是其准则。
常用的准则如下:
与决策树类似的分类方法还有决策列表。决策列表与决策树可以相互转换。