一、优点:
1.引入了两个随机(样本随机、特征随机),所以不容易陷入过拟合。
2.由于树的组合,可以处理非线性数据。
3.训练结束后,模型可以给出feature的重要程度。
二、缺点
1.随机森林的决策树个数较多时,训练时间和空间会较大。
2.在某些噪音较大的样本集中,容易陷入过拟合。
三、框架参数
1. n_estimators:
弱学习器的最大迭代次数。一般来说,n_estimators太小,容易过拟合;太大,容易欠拟合。默认100
2.oob_score:
是否采用袋外样本来评估模型的好坏。默认识False。可以设置为True,因为袋外分数反应了一个模型拟合后的泛化能力。
3.criterion:
CART树做划分时对特征的评价标准。分类模型的CART分类树分为gini、信息增益,默认为gini。回归模型有均方误差mse、绝对值误差mae,默认mse。
四、决策树参数
1.max_features
最大特征数。默认“None”,划分时考虑所有的特征数。;如果是”log2”意味着划分时最多考虑log2(n_features)个特征;如果是”sqrt”或者”auto”意味着划分时最多考虑sqrt(n_features) 个特征。如果是整数,代表考虑的特征绝对数。如果是浮点数,代表考虑特征百分比,即考虑(百分比xN)取整后的特征数。其中N为样本总特征数。
一般的,max_features 值越大,模型学习能学习到的信息越多,越容易过拟合。
2.max_depth
决策树最大深度。默认是决策树在建立子树的时候不会限制子树的深度。常用的可以设置在10-100之间。值越大,决策树越复杂,越容易过拟合。
3.min_samples_split
内部节点再划分所需最小样本数。默认值是2.如果某节点的样本数少于这个值,就不会再尝试选择最优特征来进行划分。
4.max_leaf_nodes
最大叶子节点数。限制最大叶子节点数,可以防止过拟合。