• 随机森林 参数


    一、优点:

    1.引入了两个随机(样本随机、特征随机),所以不容易陷入过拟合。

    2.由于树的组合,可以处理非线性数据。

    3.训练结束后,模型可以给出feature的重要程度。

    二、缺点

    1.随机森林的决策树个数较多时,训练时间和空间会较大。

    2.在某些噪音较大的样本集中,容易陷入过拟合。

    三、框架参数

    1. n_estimators:

    弱学习器的最大迭代次数。一般来说,n_estimators太小,容易过拟合;太大,容易欠拟合。默认100

    2.oob_score:

    是否采用袋外样本来评估模型的好坏。默认识False。可以设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。

    3.criterion:

    CART树做划分时对特征的评价标准。分类模型的CART分类树分为gini、信息增益,默认为gini。回归模型有均方误差mse、绝对值误差mae,默认mse。

    四、决策树参数

    1.max_features

    最大特征数。默认“None”,划分时考虑所有的特征数。;如果是”log2”意味着划分时最多考虑log2(n_features)个特征;如果是”sqrt”或者”auto”意味着划分时最多考虑sqrt(n_features) 个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。

    一般的,max_features 值越大,模型学习能学习到的信息越多,越容易过拟合。

    2.max_depth

    决策树最大深度。默认是决策树在建立子树的时候不会限制子树的深度。常用的可以设置在10-100之间。值越大,决策树越复杂,越容易过拟合。

    3.min_samples_split

    内部节点再划分所需最小样本数。默认值是2.如果某节点的样本数少于这个值,就不会再尝试选择最优特征来进行划分。

    4.max_leaf_nodes

    最大叶子节点数。限制最大叶子节点数,可以防止过拟合。

    只是学习笔记,非原创。
  • 相关阅读:
    从零开始设计一套指令集及其虚拟机
    一种高效整数开平方算法:逐比特确认法
    C 可变参数函数的本质
    C 基础数据类型 性能测试
    用C在GBA上写光线追踪(0)配置开发编译环境
    用C#写小工具:将圆柱面贴图映射到半球贴图
    Linux 硬盘UUID相同处理方法
    ELK6.x_Kafka 安装配置文档
    Nagios4.x安装配置总结
    Cacti-0.8.8b详细安装及配置步骤
  • 原文地址:https://www.cnblogs.com/cloris-Zhang/p/13386838.html
Copyright © 2020-2023  润新知