• 机器学习基石笔记:06 Theory of Generalization


    原文地址:https://www.jianshu.com/p/9bf316061271

    一、限界函数

    (H)的断点为(k),即(k)个数据点不能被(H)给shatter,那么(k+1)个数据点也不能被(H)给shatter,即(k+1)也是(H)的断点。如果给定的样本数(N)是大于等于(k)的,易得(m_H(N)<2^N),且随着(N)的增大,其小得越来越多。

    图1.1 断点相关1
    图1.2 断点相关2

    当断点为(k)时,记最大可能的成长函数(m_H(N))为bound函数,记为(B(N,k)),其只和(N)(k)有关。
    注意比较,发现bound函数比起成长函数消除了(H)。如果无断点,自然没有(B(N,k))什么事;如果断点为(k),那么(m_H(N))是给定(H)下,在(N)上可能的最大假设类数;(B(N,k))是不限(H)下,在(N)上可能的最大假设类数。(B(N,k)=maxlimits_H m_H(N)),只和样本数(N)和断点(k)有关。注意这里的(H)要求有相同的(k)

    图1.3 限界函数的定义

    通过数学归纳法可证得:(B(N,k))实际被(N^{k-1})所框住。

    图1.4 数学归纳法1
    图1.5 数学归纳法2

    既然成长函数的上限被(N)的多项式给框住,易得,如果断点存在的话,成长函数是多项式型的,证明了上一节的猜想。

    图1.6 常见的假设集对应的限界函数

    二、VC边界

    再看保证(E_{in})(E_{out})的不等式,可以证得:

    图2.1 概率上限的最终形式

    证明如下:

    • 用和训练集同样大小的测试集上的表现替代整体输入空间上的表现,认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大;
      这里做了2件事:
      一是用有限的训练集+有限的测试集替代了无限的输入空间,将无限的(X)变为数量为(2N)的有限数据集;
      二是用完美划分该有限数据集的模式(f')代替了完美划分整个输入空间的模式(f)。这一步实际是进行了松弛操作,因为(f')的数量多于(f)

    图2.2 推导1

    • 用有限类数(m_H(2N))替代无限(|H|)

    图2.3 推导2

    • 使用不放回的霍夫丁不等式。
      对应于在取小球实验里不放回地抽取,取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。因为 the inequalities also hold when the (X_i) have been obtained using sampling without replacement; in this case the random variables are not independent anymore.(来自维基百科)

    图2.4 推导3

    最终得到VC bound:

    图2.5 VC边界
    所以,2维感知器算法在训练集(D)上学习到的(g)泛化到整个输入空间(X)上是概率近似可行的。
    那3维及以上维数的感知器算法呢?

  • 相关阅读:
    27.全排列与带重复的排列
    ios之自定义UISwitch
    ios之UIAlertView
    ios之UISegmentedcontol
    ios之UISlider
    ios之UITextfield
    ios之UIImageView
    ios之UIButoon
    ios之UILabel
    ios 点餐系统
  • 原文地址:https://www.cnblogs.com/cherrychenlee/p/10796627.html
Copyright © 2020-2023  润新知