Boosting:学习器之间存在强依赖关系,必须串行生成的序列化方法。
Bagging,随机森林:学习器之间不存在强依赖关系,可以同事生成的并行化方法。
Boosting主要关注降低偏差,Bagging主要关注减低方差。
Boosting:先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的样本分布,训练下一个基学习器,如此循环,知道学习器数目达到指定值,最后通过加权进行结合。
举例: AdaBoost
Bagging:先随机选择一个样本放入采集样本中,然后将这个样本放回原始数据,使得下次采样时,这个样本仍有可能本采样到。Bagging最后获得的样本数和原始数据集相同,大概有原始数据集63%的数据,数据集所含样本的差异导致了模型的差异。
RF:在以决策树为基学习器构建Bagging的基础之上进一步在训练过程中引入了随机属性。决策树在选择一个节点的划分属性时,是选取这个节点的最优属性进行划分,随机森林在训练时,是先选取这个节点的k个属性,然后选择这k个属性中的最优属性进行划分。当k取最大值时和传统决策树一样, k=1时,随机选择一个属性进行划分。
由于不同模型通常不会在测试集上产生完全相同的误差,所以模型平均可以奏效,模型平均是减小泛华误差非常强大的方法。如果误差高度相关,那么模型平均对于减小误差几乎没有帮助。
学习器结合策略:
1.简单平均
2.加权平均
3.投票
4.学习法,即,用一个学习器对所有基学习器进行结合。