• 集成学习


    Boosting:学习器之间存在强依赖关系,必须串行生成的序列化方法。

    Bagging,随机森林:学习器之间不存在强依赖关系,可以同事生成的并行化方法。

    Boosting主要关注降低偏差,Bagging主要关注减低方差。

    Boosting:先前基学习器做错的训练样本在后续收到更多关注,然后基于调整后的样本分布,训练下一个基学习器,如此循环,知道学习器数目达到指定值,最后通过加权进行结合。

    举例: AdaBoost

    Bagging:先随机选择一个样本放入采集样本中,然后将这个样本放回原始数据,使得下次采样时,这个样本仍有可能本采样到。Bagging最后获得的样本数和原始数据集相同,大概有原始数据集63%的数据,数据集所含样本的差异导致了模型的差异。

    RF:在以决策树为基学习器构建Bagging的基础之上进一步在训练过程中引入了随机属性。决策树在选择一个节点的划分属性时,是选取这个节点的最优属性进行划分,随机森林在训练时,是先选取这个节点的k个属性,然后选择这k个属性中的最优属性进行划分。当k取最大值时和传统决策树一样, k=1时,随机选择一个属性进行划分。

    由于不同模型通常不会在测试集上产生完全相同的误差,所以模型平均可以奏效,模型平均是减小泛华误差非常强大的方法。如果误差高度相关,那么模型平均对于减小误差几乎没有帮助。 

    学习器结合策略:

    1.简单平均

    2.加权平均

    3.投票

    4.学习法,即,用一个学习器对所有基学习器进行结合。

  • 相关阅读:
    Pymsql
    MySQL基础操/下
    MySQL基础操作
    前端学习之jquery/下
    前端学习之jquery
    Python之异常处理
    Python之模块和包导入
    Python之模块
    Python之面向对象上下文管理协议
    Python之面向对象slots与迭代器协议
  • 原文地址:https://www.cnblogs.com/buxizhizhoum/p/8243280.html
Copyright © 2020-2023  润新知