剪枝是决策树学习算法中对付过拟合的主要手段,决策树剪枝的基本策略有预剪枝和后剪枝
预剪枝:
是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点
后剪枝:
是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点
如何判断决策树泛化性能是否提升:
采用留用法,预留一部分数据用作验证集以进行性能评估
剪枝是决策树学习算法中对付过拟合的主要手段,决策树剪枝的基本策略有预剪枝和后剪枝
预剪枝:
是指在决策树生成过程中,对每个节点在划分前先进行估计,若当前的划分不能带来泛化性能的提升,则停止划分,并将当前节点标记为叶节点
后剪枝:
是指先从训练集生成一颗完整的决策树,然后自底向上对非叶节点进行考察,若将该节点对应的子树替换为叶节点,能带来泛化性能的提升,则将该子树替换为叶节点
如何判断决策树泛化性能是否提升:
采用留用法,预留一部分数据用作验证集以进行性能评估