最近两天在学习GBDT,看了一些资料,了解到GBDT由很多回归树构成,每一棵新回归树都是建立在上一棵回归树的损失函数梯度降低的方向。
以下为自己的理解,以及收集到的觉着特别好的学习资料。
1、GBDT可用于回归任务和分类任务。
GBDT做回归任务时,每一棵子树的构建过程与cart回归树的建立过程相同,使用最小化均方误差来选择最优划分的特征,不同点是GBDT子树的根节点数据为前一棵子树所有样本真实值与其所在叶子结点预测值的残差。
GBDT做分类任务时,可以做二分类,也可以做多分类。一直没搞懂最优划分特征的准则是怎样的。直到看了下面这篇文章:
Gradient Boosting Decision Tree学习[1],这篇文章比较详细地讲述了基本理论,公式推导,GBDT建树过程。
还可以再看看这篇文章机器学习中的算法(1)-决策树模型组合之随机森林与GBDT[2],有个例子,以及算法流程的讲解。
2、GBDT运用的正则化技巧
加入正则化项,是为了防止模型过于复杂,可以看看这篇文章GBDT运用的正则化技巧[3]。
3、利用GBDT组合特征具体方法
利用GBDT模型构造新特征[4]介绍了Facebook发表的利用GBDT模型构造新特征的方法。
4、sklearn中GBDT调参问题
参考文献链接地址:
[1]http://www.lai18.com/content/1406280.html
[2]http://www.cnblogs.com/LeftNotEasy/archive/2011/03/07/random-forest-and-gbdt.html
[3]https://chuan92.com/2016/04/11/regularization-on-gbdt
[4]https://breezedeus.github.io/2014/11/19/breezedeus-feature-mining-gbdt.html#fn:fbgbdt
[5]http://www.cbdio.com/BigData/2015-08/27/content_3750170.htm