• 7. Bagging & Random Forest


    通过前面集成学习的介绍我们知道,欲得到泛化性能强的集成学习器,集成中个体学习器应尽量相互独立;虽然“独立”在现实任务中无法做到,但可以设法使基学习器尽可能具有较大差异。

    1. Bagging

    自助采样(bootstrap sampling): 给定包含$m$个样本的数据集,我们有放回地取$m$次放入采样集中,得到包含$m$个样本的采样集。这样,初始训练集中大概会有 63.2%的样本出现在采样集中。 

    Bagging并行式集成学习方法以bootstrap sampling 方式采样出 $T$ 个含 $m$ 个训练样本的采样集,然后基于每个采样集训练出一个基学习器,再将这些学习器进行结合。在对预测输出进行结合时,Bagging常对分类任务使用简单投票法,对回归任务使用简单平均

    2. Random Forest

    随机森林是 Bagging 的一种拓展,RF在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

    传统decision tree在选择划分属性时是当前结点的属性集合(假定有$K$个属性)中选择一个最优属性;而RF中,对基决策树的每个结点,先从该结点的属性集合中随机选择一个包含$k$个属性的子集,然后再从这个子集中选择一个最优属性用于划分,一般推荐 $k=log_2^K$。

  • 相关阅读:
    双启利器EasyBCD帮你找回消失了的Windows
    去掉不需要的加载项,让你的Office软件运行如飞
    Windows 7中的无损分区工具Partition Master
    IIS目录浏览模式时,ISO等文件显示不存在的解决方案
    必须常去论坛
    SSOについての英訳練習
    1月21日
    080124 (30,20)
    080122 (30,25)
    九局下半
  • 原文地址:https://www.cnblogs.com/xuanyuyt/p/6392038.html
Copyright © 2020-2023  润新知