决策树算法
特征选择
通常特征选择的准则是信息增益或信息增益比
信息增益:表示由于特征A而使得对数据集D的分类的不确定性减少的程度。
信息增益打的特征具有更强的分类能力。
根据信息增益准则的特性选择方法是:对训练数据集D,计算其每个特征的信息增益,并比较它们的大小,选择信息增益最大的特征。
信息增益比:以信息增益作为划分训练数据集的特征,存在偏向于选择取值较多的特征的问题。使用信息增益比可以对这一问题进行校正。
决策树的生成
ID3算法:ID3算法的核心是在决策树各个结点上应用信息增益准则选择特征,递归地构建决策树。
C4.5算法 :C4.5算法与ID3算法相似,C4.5算法对ID3算法进行了改进,C4.5算法在生成的过程中,用信息增益比来选择特征。
决策树的剪枝
对策树生成算法递归地产生决策树,直到不能继续下去为止,这样产生的树往往对训练数据的分类很准确,但对未知的测试数据的分类却没有那么准确,即出现过拟合现象。
解决这个问题的办法:是考虑决策树的复杂度,对已生成的决策树进行简化。
在决策树学习中将已生成的树进行简化的过程称为剪枝。
实现方式:决策树的剪枝往往通过极小化决策树整体的损失函数或代价函数来实现。
决策树生成只考虑了通过提高信息增益(或信息增益比)对训练数据进行更好的拟合。而决策树剪枝通过优化损失函数还考虑了减小模型复杂度。决策树生成学习局部的模型,而决策树剪枝学习整体的模型。
CART算法(分类与回归树)classification and regression tree 是应用广泛的决策树学习方法。
CART同样由特征选择、树的生成以及剪枝组成。CART是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。
(1)特征选择
分类树采用基尼指数(Gini index)最小化准则
回归树采用平方误差最小化准则。
(2)决策时生成
采用基尼指数(Gini index)最小化准则选择特征,生成决策树。
(3)CART剪枝
CART剪枝算法由两步组成:首先从生成算法产生的决策树T底端开始不断剪枝,直到T的根结点,形成一个子树序列;
然后通过交叉验证法在独立的验证数据集上对子树序列进行测试,从中选择最优子树。
ID3, C4.5,CART算法的主要区别
主要在于特征选择:
ID3:采用信息增益最大准则
C4.5:主要采用信息增益比最大准则
CART:主要采用基尼指数最小化准则