• 如何理解统计学中「惩罚」的概念


    作者:萧议

    链接:https://www.zhihu.com/question/30037293/answer/46867665

    来源:知乎

    著作权归作者所有,转载请联系作者获得授权。

    惩罚的核心目的是限制参数空间的大小以降低模型复杂度,惩罚本身反应你对对应的统计问题的某种先验知识(比如回归系数当中应该有很多0啊,回归系数不应该太大啊)

    比如n维线性回归中的LASSO和一般的最小二乘回归Least square,前者的回归系数被限制在一个L1意义下的n维球内,而后者的参数空间则是R^n

    再比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度

    一些情况下,惩罚有独特的概率上的解释,比如假设正太噪声的线性模型中,LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior,而岭回归Ridge regression中的L2惩罚则对应一般的normal prior

    这样的方法在统计中一般叫正则化Regularization,当然也可以叫惩罚Penalization,正则化由Tikhonov在解ill-posed equation时引入,通过加上惩罚项(一般来说是hilbert space上的Lp norm)来限制解可以取值的范围以保证解的良好性质,比如唯一性。后来人们发现,很多问题如果你给他太大的空间,搜索出来的解即便存在唯一,往往也不够好(under some other criteria, like predictive MSE, AIC, BIC ),这个涉及Occam Razor principle,统计中的bias variance trade off,拟合和预测的trade off啦,总的来说,让参数们老实点,别乱跑,得到的结果会比较好。

    惩罚似然 请去看Fan Jianqing的SCAD,没记错是98年的JASA

    惩罚回归 自然就去看Tibshirani的LASSO,96年的RoyalB,后面一堆follow up,还有tibshirani本人的review,此外还有Efron的LAR,早一点的Ridge Regression比较简单,可以看看

    惩罚样条 去看Wahba的paper和书吧,此外记得Elements of Statistical Learning里面有讲光滑样条来着

    PS:优化的话 其实统计这边不是那么care。一般来说加上惩罚之后,院里的unconstrained optimization就变成了constrained optimization,求解的算法复杂度只可能持平或者变高,因为惩罚引入的constrained set可能是奇形怪状的,离散的,非凸的。但是通过适当的选取惩罚可以避免太扯淡的np hard的问题。tenrence tao和candes的compressive sensing就是用L1的惩罚(凸优化)relax了本来很难求解的L0惩罚(整数规划),然后证明了在一定的稀疏性条件下,新的优化问题的解收敛到原问题的解。岭回归有显式解,LASSO虽然没有但是可以在最小二乘的时间复杂度内解出来,最后还有诸如SCAD等等non-convex的惩罚。。。对于这部分非凸的惩罚我只能说,统计性质或许很不错但是计算角度来看实在是不靠谱。。。但是咱们搞统计的不care~

     
  • 相关阅读:
    分布式设计与开发(一)------宏观概述
    分布式设计与开发(二)------几种必须了解的分布式算法
    分布式设计与开发(三)------高一致性服务ZooKeeper
    jvm工作原理
    JVM原理和优化
    分布式系统设计原理与方案
    在Linux上安装Memcached服务
    使用Memcached、Spring AOP构建数据库前端缓存框架
    Java使用memcached
    Memcache的部署和使用
  • 原文地址:https://www.cnblogs.com/sddai/p/6171852.html
Copyright © 2020-2023  润新知