随机森林参数

随机森林参数

一、优点：

1.引入了两个随机（样本随机、特征随机），所以不容易陷入过拟合。

2.由于树的组合，可以处理非线性数据。

3.训练结束后，模型可以给出feature的重要程度。

二、缺点

1.随机森林的决策树个数较多时，训练时间和空间会较大。

2.在某些噪音较大的样本集中，容易陷入过拟合。

三、框架参数

1. n_estimators:

弱学习器的最大迭代次数。一般来说，n_estimators太小，容易过拟合；太大，容易欠拟合。默认100

2.oob_score:

是否采用袋外样本来评估模型的好坏。默认识False。可以设置为True，因为袋外分数反应了一个模型拟合后的泛化能力。

3.criterion:

CART树做划分时对特征的评价标准。分类模型的CART分类树分为gini、信息增益，默认为gini。回归模型有均方误差mse、绝对值误差mae，默认mse。

四、决策树参数

1.max_features

最大特征数。默认“None”，划分时考虑所有的特征数。；如果是”log2”意味着划分时最多考虑log2(n_features)个特征；如果是”sqrt”或者”auto”意味着划分时最多考虑sqrt(n_features) 个特征。如果是整数，代表考虑的特征绝对数。如果是浮点数，代表考虑特征百分比，即考虑（百分比xN）取整后的特征数。其中N为样本总特征数。

一般的，max_features 值越大，模型学习能学习到的信息越多，越容易过拟合。

2.max_depth

决策树最大深度。默认是决策树在建立子树的时候不会限制子树的深度。常用的可以设置在10-100之间。值越大，决策树越复杂，越容易过拟合。

3.min_samples_split

内部节点再划分所需最小样本数。默认值是2.如果某节点的样本数少于这个值，就不会再尝试选择最优特征来进行划分。

4.max_leaf_nodes

最大叶子节点数。限制最大叶子节点数，可以防止过拟合。

只是学习笔记，非原创。
相关阅读:
从零开始设计一套指令集及其虚拟机
 一种高效整数开平方算法：逐比特确认法
 C 可变参数函数的本质
 C 基础数据类型性能测试
 用C在GBA上写光线追踪（0）配置开发编译环境
 用C#写小工具：将圆柱面贴图映射到半球贴图
 Linux 硬盘UUID相同处理方法
 ELK6.x_Kafka 安装配置文档
 Nagios4.x安装配置总结
 Cacti-0.8.8b详细安装及配置步骤
原文地址：https://www.cnblogs.com/cloris-Zhang/p/13386838.html

随机森林 参数

随机森林参数