• 机器学习基石笔记15——机器可以怎样学得更好(3)


    Lecture 15: Validation

    15.1  Model Selection Problem

    略过!

    用 Ein 来选择模型不靠谱,要用验证集

    15.2  Validation

    略过!

    15.3  Leave-one-out Cross Validation

    现在还有一个问题,Eloocv 是很多模型的Error 的均值。就算 Eloocv 效果很好。我们还是不知道用那个模型? 难道是训练 n 个模型,然后用投票法?居然真的是这样,如果是 loocv 组合 svm 岂不是嗨爆!还是 k 交叉验证更靠谱点

    另外, leave-one-out cross validation 也算是 bagging 算法 (类似的还有 RF 中的 oob ),不过 leave-one-out cross validation 变的是训练数据,bagging 中模型参数会变。《西瓜书》关于 bagging 模型模型稳定的定性解释也能用于解释 leave-one-out  cross validataion!

     

                                        图 15-1

      图 15-2 中关于 eave-one-out cross validation error  约等于  out-sample error 的证明也是奇特 !

    如果样本数特别多,就没有做 leave-one-out cross validation 了

     

                                       图 15-2

    可以很直观的看出 Eloocv 的效果要比 Ein 要好(那么还需不需要更新 VC Dimension ?)

    15.4  V-Fold Cross Validation

     略过

    题外话:

            1. 第三小节的内容要参考《西瓜书》和网络资料

            2. 想个无关本节的问题, 对于 bagging 而言。假设有个模型 A 在 in-sample 数据上表现的很好,而且在 out-sample 表现的也很好。此时如果用 bagging 算法计算的结果还不如单独用模型 A 计算出的结果。那么为什么还有用 bagging 呢? 仅仅是我们不知道如何将模型 A 挑选出来?

            3. 前面写笔记时谈的都是 Ein 和 Eout ,要更新了前面的笔记

            4. 如图 15-2 所示,有关特征数量和错误率间的关系还需要查找其它资料学习(本节出现这段内容也算是突兀的很)

  • 相关阅读:
    frp最简配置 实现内网穿透(访问内网WEB服务器)
    frp最简配置 实现内网穿透(访问内网其他服务器SSH)
    Linux 进程树查看工具 pstree
    svn Server authz 配置示例(文件夹权限配置)
    centos7 安装 mysql5.7.25
    centos7中将tomcat注册为系统服务
    keepalived 配置文件解析
    datatables参数配置详解
    使用jquery.datatable.js注意事项
    ondblclick和dblclick区别
  • 原文地址:https://www.cnblogs.com/tmortred/p/8108356.html
Copyright © 2020-2023  润新知