• Bias/variance tradeoff


        线性回归中有欠拟合与过拟合,例如下图: 则会形成欠拟合, 则会形成过拟合。

        尽管五次多项式会精确的预测训练集中的样本点,但在预测训练集中没有的数据,则不能很好的预测,也就是说有较大的泛化误差,上面的右边与左边的图都有很大的泛化误差,他们的情况各不相同,如果数据是非线性的,我们无法使用线性模型来精确的预测,即它的偏差很大,引起欠拟合。而如果像上面右图那样形成一个五次多项式的模型,很可能是我们的训练集数据很小的情况下建立的,它就不能反映出x与y更广泛的关系,这种模型有很大的偏差,引起过拟合。所以归根结底,学习算法其实就是找偏差方差的一个平衡点达到上面中图的效果。

        在证明偏差方差权衡前先来介绍两个在推导时要用到的两个定理。

        1.假设 是k个不同的事件,P(A)代表事件发生的概率,那么,这对于学过概率论的同学肯定容易推到出来。

        2.Hoeffding不等式是关于一组随机变量均值的概率不等式. 为一组随机变量, , 定义一组随机变量的均值为

    Hoeffding不等式可以表示为

    如果为一组独立同分布的参数为p的伯努利分布随机变量上述不等式可以表示为

        

        假设有一个训练集 ,样本服从独立同分布D,对于一个假设类h,定义训练误差为

        定义泛化误差:

        泛化误差即有一个新的样本点(x,y)服从分布D,类h判错这个样本的概率。使 ,通过选取θ来最小化训练误差的过程叫做经验风险最小化(empirical risk minimization (ERM)),

        我们定义Η为假设类的集合

    现在经验风险最小化可以改写为

    对于有限的假设类集合,通过上面的描述泛化误差就是独立同分布随机变量的期望值,代入到Hoeffding不等式

    这个式子表明了对于给定一个假设 ,假设样本数量m很大,泛化误差与训练误差很接近,应用到k个假设中

    两边同时被1减去得到

    对于给定一个γ和 ,至少多大的m能够保证 ,通过推导得到

    定义, 是在集合H里面具有最小训练误差的假设,即,又根据 最多相差一个 ,所以可以得出下列的推导步骤:

    从而得到

    这个不等式验证了本文一开始得出的结论,假设类的集合k增大时,minε(h)肯定是越来越小的,而第二项的对数式则随着k的增大而减小,k很小时就是前面所说的欠拟合的情况,相反k很大时即过拟合,两种情况都会导致泛化误差 增大,我们要做的就是选择一个合适的k,来最小化泛化误差。

  • 相关阅读:
    linux crontab 常用时间设置
    远程连接 mysql 数据库连接不上的解决方案
    Caffe搭建:Ubuntu14.04 + CUDA7.0 + opencv3.0 + Matlab2014A
    Ubuntu中sublime和Foxit Reader不能使用中文输入法解决方案
    python学习:python的星号(*)和双星号(**)用法
    Latex使用:在latex中添加算法模块
    Torch,Tensorflow使用: Ubuntu14.04(x64)+ CUDA8.0 安装 Torch和Tensorflow
    Caffe使用: Ubuntu 14.04(x64) 从cuda 7.0 升级到 cuda8.0
    Git使用:Linux(Ubuntu 14.04 x64)下安装Git并配置连接GitHub
    Git使用:安装,使用及常用命令整理
  • 原文地址:https://www.cnblogs.com/loujiayu/p/3508051.html
Copyright © 2020-2023  润新知