7. Bagging & Random Forest

通过前面集成学习的介绍我们知道，欲得到泛化性能强的集成学习器，集成中个体学习器应尽量相互独立；虽然“独立”在现实任务中无法做到，但可以设法使基学习器尽可能具有较大差异。

1. Bagging

自助采样（bootstrap sampling）：给定包含$m$个样本的数据集，我们有放回地取$m$次放入采样集中，得到包含$m$个样本的采样集。这样，初始训练集中大概会有 63.2%的样本出现在采样集中。

Bagging并行式集成学习方法以bootstrap sampling 方式采样出 $T$ 个含 $m$ 个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些学习器进行结合。在对预测输出进行结合时，Bagging常对分类任务使用简单投票法，对回归任务使用简单平均。

随机森林是 Bagging 的一种拓展，RF在以决策树为基学习器构建Bagging集成的基础上，进一步在决策树的训练过程中引入了随机属性选择。

传统decision tree在选择划分属性时是当前结点的属性集合（假定有$K$个属性）中选择一个最优属性；而RF中，对基决策树的每个结点，先从该结点的属性集合中随机选择一个包含$k$个属性的子集，然后再从这个子集中选择一个最优属性用于划分，一般推荐 $k=log_2^K$。

相关阅读:
双启利器EasyBCD帮你找回消失了的Windows
去掉不需要的加载项，让你的Office软件运行如飞
Windows 7中的无损分区工具Partition Master
IIS目录浏览模式时，ISO等文件显示不存在的解决方案
必须常去论坛
SSOについての英訳練習
1月21日
080124 （30,20）
080122　(30,25)
九局下半

原文地址：https://www.cnblogs.com/xuanyuyt/p/6392038.html