一、定义
决策树是一种对实例进行分类的树形结构。
决策树由结点和有向边组成。
结点有两种类型:内部节点表示一个特征或属性,叶节点表示一个类。
二、算法
计算最优特征子函数:不同标准导致不同类型的决策树,
ID3的最优特征选择标准是信息增益,C4.5是信息增益率,CART是节点方差的大小
框架:
1-输入 要分类的数据集和类别标签
2-根据某种分类规则,创建特征的划分节点(计算最优特征子函数)
3-按照该特征,划分数据集
4-根据划分子函数构建新的节点
5-检验是否符合递归终止条件
6-将划分的新节点包含的数据集和类别标签作为输入,递归执行上述步骤
二、决策树的剪枝
极小化决策树整体的损失函数或代价函数
设置一个信息增益的阀值,自下而上遍历决策树,将信息增益低于阀值的拆分进行合并