决策树是一种树形结构的分类算法,是一种监督学习,需要提供一堆样本,这些样本有一些属性和分类结果,通过学习这些样本来建立一个决策树,对样本进行正确分类。划分的标准常常使用信息增益(ID3)、增益率(C4.5)和基尼指数(CART)
信息增益(二分类):信息增益越大,意味着使用属性A来进行划分所获得的“纯度提升”越大。
增益率(二分类):属性A的增益率 等于 属性A的信息增益 除以 属性A的固有值。
基尼指数(分类和回归任务都可用):基尼指数越小,其纯度越高。在候选属性集合A中,选择那个使得划分后的基尼指数最小的属性作为最优划分属性。