集成学习

Boosting：学习器之间存在强依赖关系，必须串行生成的序列化方法。

Bagging，随机森林：学习器之间不存在强依赖关系，可以同事生成的并行化方法。

Boosting主要关注降低偏差，Bagging主要关注减低方差。

Boosting：先前基学习器做错的训练样本在后续收到更多关注，然后基于调整后的样本分布，训练下一个基学习器，如此循环，知道学习器数目达到指定值，最后通过加权进行结合。

举例： AdaBoost

Bagging：先随机选择一个样本放入采集样本中，然后将这个样本放回原始数据，使得下次采样时，这个样本仍有可能本采样到。Bagging最后获得的样本数和原始数据集相同，大概有原始数据集63%的数据，数据集所含样本的差异导致了模型的差异。

RF：在以决策树为基学习器构建Bagging的基础之上进一步在训练过程中引入了随机属性。决策树在选择一个节点的划分属性时，是选取这个节点的最优属性进行划分，随机森林在训练时，是先选取这个节点的k个属性，然后选择这k个属性中的最优属性进行划分。当k取最大值时和传统决策树一样， k=1时，随机选择一个属性进行划分。

由于不同模型通常不会在测试集上产生完全相同的误差，所以模型平均可以奏效，模型平均是减小泛华误差非常强大的方法。如果误差高度相关，那么模型平均对于减小误差几乎没有帮助。

学习器结合策略：

1.简单平均

2.加权平均

3.投票

4.学习法，即，用一个学习器对所有基学习器进行结合。

相关阅读:
面向报文（UDP）和面向字节流（TCP）的区别
c++ 字符串和数字拼接
OpenGL中着色器，渲染管线，光栅化
阅读计划
课堂测试
多态与异常处理
《大道至简》第七八章读后感
继承与接口课堂作业
《大道至简》第六章读后感
随机数组

原文地址：https://www.cnblogs.com/buxizhizhoum/p/8243280.html