如何理解统计学中「惩罚」的概念

如何理解统计学中「惩罚」的概念

作者：萧议

链接：https://www.zhihu.com/question/30037293/answer/46867665

来源：知乎

著作权归作者所有，转载请联系作者获得授权。

惩罚的核心目的是限制参数空间的大小以降低模型复杂度，惩罚本身反应你对对应的统计问题的某种先验知识（比如回归系数当中应该有很多0啊，回归系数不应该太大啊）

比如n维线性回归中的LASSO和一般的最小二乘回归Least square，前者的回归系数被限制在一个L1意义下的n维球内，而后者的参数空间则是R^n

再比如光滑样条Smooth Spline通过对二阶导数进行惩罚来控制拟合曲线的光滑程度

一些情况下，惩罚有独特的概率上的解释，比如假设正太噪声的线性模型中，LASSO的L1惩罚相当于给回归参数加上了一个Laplace prior，而岭回归Ridge regression中的L2惩罚则对应一般的normal prior

这样的方法在统计中一般叫正则化Regularization，当然也可以叫惩罚Penalization，正则化由Tikhonov在解ill-posed equation时引入，通过加上惩罚项（一般来说是hilbert space上的Lp norm）来限制解可以取值的范围以保证解的良好性质，比如唯一性。后来人们发现，很多问题如果你给他太大的空间，搜索出来的解即便存在唯一，往往也不够好(under some other criteria, like predictive MSE, AIC, BIC )，这个涉及Occam Razor principle，统计中的bias variance trade off，拟合和预测的trade off啦，总的来说，让参数们老实点，别乱跑，得到的结果会比较好。

惩罚似然请去看Fan Jianqing的SCAD，没记错是98年的JASA

惩罚回归自然就去看Tibshirani的LASSO，96年的RoyalB，后面一堆follow up，还有tibshirani本人的review，此外还有Efron的LAR，早一点的Ridge Regression比较简单，可以看看

惩罚样条去看Wahba的paper和书吧，此外记得Elements of Statistical Learning里面有讲光滑样条来着

PS:优化的话其实统计这边不是那么care。一般来说加上惩罚之后，院里的unconstrained optimization就变成了constrained optimization，求解的算法复杂度只可能持平或者变高，因为惩罚引入的constrained set可能是奇形怪状的，离散的，非凸的。但是通过适当的选取惩罚可以避免太扯淡的np hard的问题。tenrence tao和candes的compressive sensing就是用L1的惩罚（凸优化）relax了本来很难求解的L0惩罚（整数规划），然后证明了在一定的稀疏性条件下，新的优化问题的解收敛到原问题的解。岭回归有显式解，LASSO虽然没有但是可以在最小二乘的时间复杂度内解出来，最后还有诸如SCAD等等non-convex的惩罚。。。对于这部分非凸的惩罚我只能说，统计性质或许很不错但是计算角度来看实在是不靠谱。。。但是咱们搞统计的不care～
相关阅读:
分布式设计与开发（一）------宏观概述
 分布式设计与开发（二）------几种必须了解的分布式算法
 分布式设计与开发（三）------高一致性服务ZooKeeper
jvm工作原理
 JVM原理和优化
 分布式系统设计原理与方案
 在Linux上安装Memcached服务
 使用Memcached、Spring AOP构建数据库前端缓存框架
 Java使用memcached
Memcache的部署和使用
原文地址：https://www.cnblogs.com/sddai/p/6171852.html