与神经网络相媲美。非常强大!一般都是对决策树集成。
随机森林与Stacking集成算法。
- Bagging集成思想与随机森林
- 理解交叉验证
- 理解Stacking集成算法。
集成算法:多算法融合。
决策树:容易发生过拟合。一颗树不好,就多颗树,森林。
怎么集成?两种方法主流,其他adaboost,xgboost
1、Bagging
独立并行训练,最后取平均值。
随机森林,基础决策树-称为弱学习器,集成之后:强学习器。
随机:随机数据、随机特征->提升泛化能力。
回归任务:均值。
分类任务:投票。
优势:并行,速度快。
2、Stacking
stack堆叠
各种任何算法集成。
分阶段:
并行训练,预测,第二阶段依据第一阶段加分类。
相当于在Bagging基础上进行总结。