• 关于 PAC 学习理论的一点思考


    来自 2019年7月对机器学习理论整理时的思考:

    1. 第一章中给出了轴平行矩形这一概念类,并且推导出了样本复杂度,从而说明了是 PAC 可学习的。但后面 VC维章节可以分析一下这一概念类的VC 维,在泛化界章节,可以给出基于VC维的泛化界,并且与这里的泛化界进行对比。

    2. 在泛化界章节,最好再强调一下泛化误差界 和 PAC 可学习的关系。有了泛化界,并没有完全解决 PAC 可学习这一问题。泛化界是假设以及假设空间的性质,只是给出了 经验误差逼近泛化误差的衡量,也即假设的泛化误差的上界和对整个假设类都成立的一致上界。但 PAC 可学习需要刻画 输出假设的泛化误差 和 最优假设的泛化误差的差别。因此通常 PAC 可学习是 ERM + 泛化误差界。

    3. 可以参考 Understanding ML 一书把 approximate error, estimation error, excess risk 写进去

    4. 在稳定性一章也要强调一下, PAC 可学习是 算法的稳定性 + 算法的ERM+ 算法的损失函数有上界 联合导致的。另外稳定性隐含要求了假设空间不会太大。

    5. Understanding Machine Learning 上要求了 稳定性 等价于 不会过拟合,这相当于另一种解释,可以想办法结合进去。

    6. 可以写一点 统计学习理论,各种 risk 的理论,以及 结构风险极小化,SRM

    7. 可以写 PAC model for noisy label ,PAC model for semi-supervised learning

    8. 可以写一点主动学习的理论

    9. 在 PAC理论中,把 stochestical learning scenario 以及 bayes risk 写进去

    另外还有很多思考记录在了纸质材料上,例如

    1. 有限可分情况下其实也是可以用 Hoeffding 不等式bound,但此 bound 则太松了,从 O(1/m) 变为 O(1/sqrt{m}),or O(1/epsion) 变为 O(1/epsilon^2)
    2. P(|E-hat{E}|) 与 P(E-hat{E}) 差一个 2 的关系,(Union Bound)
    3. approximate error, estimation error, excess risk 而泛化界是用来 bound 经验误差与期望误差的
    4. PAC 学习理论中有所谓的经验误差和泛化误差,而一般算法有训练集误差,测试集误差,那是训练集误差对应经验误差,还是测试集误差对应经验误差?

    样本复杂度是指训练集的样本的大小,因此这里的经验误差应该是指训练集误差。在训练时,通常是搜索并保留训练误差小的假设,因为 泛化误差 < 训练误差 + 复杂度项,如果假设复杂度项是不变的,则基于优化上界的原则,确实是应该选择训练误差小的假设,当然这一上界并不紧,因此可能会导致过拟合的现象: 某个假设的训练误差较小,但其泛化误差反而较大。

    但若另外进行比较,例如比较两种不同的算法,则此时训练误差没有意义,因为很可能不同的算法(模型)考虑的假设空间所对应的复杂度项不一样大。
    但另一方面,测试误差是泛化误差的估计值,也可以用 test set 上的测试误差来比较两个算法(模型)的好坏。 读电子版 Understanding ML P67 页突然想到。

  • 相关阅读:
    【刷题】LOJ 6009 「网络流 24 题」软件补丁
    lab 项目
    js内的时间戳指的是当前时间到1970年1月1日00:00:00 UTC对应的毫秒数,和 unix时间戳是对应的秒数,差了1000倍
    js 原生: 身份证脱敏、唯一随机字符串uuid、对于高 index 元素的隐藏与显示
    diy 滚动条 样式 ---- 核心代码
    PC_后台管理系统
    三端兼容项目
    阿里小程序
    到位App_jQuery_art-template
    一步一步 copy163: 网易严选 ---- vue-cli
  • 原文地址:https://www.cnblogs.com/Gelthin2017/p/12254969.html
Copyright © 2020-2023  润新知