随机森林RandomForest - 润新知

随机森林RandomForest
ID3，C4.5决策树的生成：

输入：训练集D，特征集A，阈值eps，输出：决策树T
1. 若D中所有样本属于同一类C_k，则T为单节点树，将类C_k作为该结点的类标记，返回T；
2. 若A为空集，即没有特征作为划分依据，则T为单节点树，并将D中实例数最大的类C_k作为该结点的类标记，返回T；
3. 否则，计算A中各特征对D的信息增益(ID3)/信息增益比(C4.5)，选择信息增益最大的特征Ag；
4. 若Ag的信息增益（比）小于阈值eps，则置T为单节点树，并将D中实例数最大的类C_k作为该结点的类标记，返回T；
5. 否则，依照特征Ag将D划分为若干非空子集D_i，将D_i中实例数最大的类作为标记，构建子节点，由结点及其子节点构成树T，返回T；
6. 对第i个子节点，以D_i为训练集，以A-{Ag}为特征集，递归地调用1~5，得到子树T_i，返回T_i。
CART决策树的生成：

这里只简单介绍下CART与ID3和C4.5的区别
1. CART树是二叉树，而ID3和C4.5可以是多叉树；
2. CART在生成子树时，是选择一个特征一个取值作为切分点，生成两个子树；
3. 选择特征和切分点的依据是基尼指数，选择基尼指数最小的特征及切分点生成子树。
相关阅读:
Kruskal
克鲁斯卡尔
 克鲁斯卡尔
 实践是检验真理的唯一标准脱壳篇02
Kruskal
克鲁斯卡尔算法讲解
 实践是检验真理的唯一标准脱壳篇02
最小生成树（普里姆算法）数据结构和算法62
克鲁斯卡尔算法讲解
 最小生成树（普里姆算法）数据结构和算法62
原文地址：https://www.cnblogs.com/wzdLY/p/10092883.html

Copyright © 2020-2023 润新知