• 机器学习(周志华)——学习笔记2


    第2章 模型评估与选择

    1、error rate

    分类错误的样本数占样本总数的比例

    2、accuracy

    精度=1-错误率

    3、error

    训练集上的误差:training error/empirical error

    新样本上的误差:generalization error<越小越好>

    4、overfitting

    原因:学习能力过强

    解决方案:关键障碍。无法彻底避免,只能缓解

    5、uderfitting

    原因:学习能力过低

    解决方案:较容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等

    6、模型评估和选择

          使用testing set来测试学习期对新样本的判别能力,然后以测试集上的testing error作为generalization error的近似。测试集与训练集尽可能互斥

    1)留出法 (hold-out):直接将数据集划分成两个互斥的集合

    2)交叉验证法(cross validation):先将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性(即从数据集中通过分层采样得到子集),k-1个子集的并集作为训练集,剩余的一个子集作为测试集。最后返回k个测试结果的均值。k通常取10,其他常用的也有5和20.

    ——交叉验证的特例,留一法(Leave-One-Out)

    3)自助法:解决前两种由于划分出部分数据集作为测试集带来的训练样本规模变小而导致的估计偏差。

    其他的概念,先缓缓

  • 相关阅读:
    C#中一些关联名词的含义归纳
    lua杂记
    项目管理工具与常用网站汇总
    SVN用法及常见问题分析
    递归打印lua中的table
    脚本编辑中的一些名词概念
    quick-cocos2d-x lua框架解析(一)对UI进行操作的UiUtil脚本
    lua的table转为excel表格的方法
    前端mvc与mvvm
    ext--创建store
  • 原文地址:https://www.cnblogs.com/bolumiere/p/6993474.html
Copyright © 2020-2023  润新知