• 某次使用随机森林的总结


    首先这个模型的使用没有问题;
    模型的评价也没有问题;

    但是这个模型不能被工业化;

    原因是数据本身有很大问题,典型的学术型数据;

    问题如下:
    1. 误踩油门是 刻意为之,因为每次基本都踩到底了,而实际驾驶过程中不会踩到底
    2. 数据样本在 误踩油门 时加速踏板开度在100左右,而正常时刻加速踏板开度基本都很小,而实际驾驶过程中,正常驾驶时油门开度也会很大,不会一直很小
    --实验数据和工业上的数据差别巨大

    这样的数据造成的结果是:
    1. 加速踏板开度重要性非常高,
    2. 加速踏板开度基本就完全决定了label
    3. 其他特征基本没用

    在这种情况下,选择随机森林或许是个不错的选择,至少存在好于其他模型的可能性,
    因为随机森林随机选择特征时,可能避开 加速踏板 开度这个重要特征,而关注到其他特征,使得其他特征起到作用;
    // 这里有个小技巧,为了使得基学习器更多的避开 加速踏板 这个重要特征,可将 max_feature 设置的小一点,特别是特征较少时,增加避开的可能性
    // 也可以树的棵树少一点,也是为了降低 以加速踏板为主要特征的基学习器 的投票个数

    总结:
    1. 数据要尽可能真实
    2. 如果从数据或者模型看,某个特征在很大程度上决定了 label,而真实情况是这个特征根本不能决定 label,此时可选择 随机森林 模型,泛化能力可能会好于其他模型
    // 特征较少时,试试这样:树的棵树小于特征个数
    // 不一定能提升泛化能力,但是至少不会被虚假的评价指标所蒙蔽

  • 相关阅读:
    向强大的SVG迈进
    手把手教你写个小程序定时器管理库
    蒲公英 · JELLY技术周刊 Vol.11 Lighthouse 测试报告生成
    ES6语法——let和const
    北京天地益星面经
    JS的数据类型你真的懂了吗
    北京MedPeer凉经
    flex布局语法+实例
    面试官问:你有多少种方式实现三栏布局?
    CSS粘性定位
  • 原文地址:https://www.cnblogs.com/yanshw/p/14314442.html
Copyright © 2020-2023  润新知