• 自助采样包含训练集里63.2%的样本?


    自助采样包含训练集里63.2%的样本?

    在学习随机森林的时候,经常会看到这么一句话“ 自助采样法给bagging带来的好处就是:由于每个学习器只是使用了%63.2的数据,剩下的约%36.8的样本可以用作验证集来对泛化性能进行“包外估计”。

    那么这个63.2%是怎么来的呢?假设我们有n个样本,有放回的进行抽取,那么每个样本不被抽取的概率为(1 - dfrac{1}{n})。我们需要抽取n轮,那么某个样本一直不被抽到的概率为

    [p=(1 - dfrac{1}{n})^n ]

    当n足够大的时候有

    [p = lim_{n o +infty}(1 - dfrac{1}{n})^n ]

    这个p该怎么算?实际上在课本里有一个公式

    [e^x=lim_{n oinfty}(1 + dfrac{x}{n})^n ]

    当x=-1的时候对应着上述的p,由此可得自助采样没有采到的样本大概占整个样本集的(e^{-1}),那么自助采样包含训练集里的样本即为(1 - e^{-1} approx 0.632 approx dfrac{2}{3})

  • 相关阅读:
    15-数组concat()方法和push比较
    06-使用云储存上传工具
    05-云函数/云数据库的增删改查
    错题1
    c++链表
    8817
    8816
    1177
    1355
    c++期末考
  • 原文地址:https://www.cnblogs.com/crackpotisback/p/9849090.html
Copyright © 2020-2023  润新知