某次使用随机森林的总结

首先这个模型的使用没有问题；
模型的评价也没有问题；

但是这个模型不能被工业化；

原因是数据本身有很大问题，典型的学术型数据；

问题如下：
1. 误踩油门是刻意为之，因为每次基本都踩到底了，而实际驾驶过程中不会踩到底
2. 数据样本在误踩油门时加速踏板开度在100左右，而正常时刻加速踏板开度基本都很小，而实际驾驶过程中，正常驾驶时油门开度也会很大，不会一直很小
--实验数据和工业上的数据差别巨大

这样的数据造成的结果是：
1. 加速踏板开度重要性非常高，
2. 加速踏板开度基本就完全决定了label
3. 其他特征基本没用

在这种情况下，选择随机森林或许是个不错的选择，至少存在好于其他模型的可能性，
因为随机森林随机选择特征时，可能避开加速踏板开度这个重要特征，而关注到其他特征，使得其他特征起到作用；
// 这里有个小技巧，为了使得基学习器更多的避开加速踏板这个重要特征，可将 max_feature 设置的小一点，特别是特征较少时，增加避开的可能性
// 也可以树的棵树少一点，也是为了降低以加速踏板为主要特征的基学习器的投票个数

总结:
1. 数据要尽可能真实
2. 如果从数据或者模型看，某个特征在很大程度上决定了 label，而真实情况是这个特征根本不能决定 label，此时可选择随机森林模型，泛化能力可能会好于其他模型
// 特征较少时，试试这样：树的棵树小于特征个数
// 不一定能提升泛化能力，但是至少不会被虚假的评价指标所蒙蔽

相关阅读:
LintCode2016年8月22日算法比赛----骰子求和
LintCode2016年8月22日算法比赛----平面列表
LintCode2016年8月22日算法比赛----将数组重新排序以构造最小值
LintCode2016年8月22日算法比赛----克隆二叉树
Leetcode算法比赛----Longest Absolute File Path
Leetcode算法比赛----First Unique Character in a String
vue运行报错Error: listen EADDRNOTAVAIL 192.168.1.105:8080
vue使用lrz插件压缩图片
<input type="file">原型难看
vue创建全局变量以及全局方法

原文地址：https://www.cnblogs.com/yanshw/p/14314442.html