CART:
回归树的基本思想和分类树差不多,就是递归寻找最有切分特征j,和最优切分点s,即,求解
这是一个递归子空间求解最优的过程,在满足停止条件(比如生成N个划分空间)时返回树。
分类树(和ID3类似):
类比ID3的信息增益和C4.5的信息增益比,CART分类树用基尼指数来作为最优特征的选择标准
基尼指数: PK表示,样本点属于K类的概率。
基尼指数意义和熵类似,总体内包含的类别越杂乱,GINI指数就越大,主要区别在于,熵达到峰值的过程要相对慢一些。因此,熵对于混乱集合的判罚要更重一些
BDT:提升树采用向前分布算法: fm(x)=fm−1(x)+T(x;θm),其中下一棵树抉择树的参数通过经验风险最小化确定。θ∗m=argminθm∑i=1NL(yi,fm−1(xi)+T(xi;θm)
回归问题的提升树主要是下一颗树对当前残差(r = yi - f m-1 ( x i ))的拟合 ,损失函数使用回归问题的损失函数。比如平方误差损失函数
每次训练和训练回归树过程一样,只不过下一次训练的数据集是上一次训练的残差,得到的树相加之前已知树,反复该过程,直到满足停止条件(比如loss小于阈值,次数达到设定值)。
分类问题的提升树,可以把Adaboost中基本分类器设置为分类树即可。
ps.在实际问题中常用回归树设定阈值的方法来解决分类问题。
GBDT:相对于提升树,GBDT将前一棵树的损失函数的负梯度值当作残差的近似值进行拟合,