简单解释一下正则化

解释之前，先说明这样做的目的：如果一个模型我们只打算对现有数据用一次就不再用了，那么正则化没必要了，因为我们没打算在将来他还有用，正则化的目的是为了让模型的生命更长久，把它扔到现实的数据海洋中活得好，活得久。

再简单解释一下正则化，以下内容来自PRML前三章，具体页数记不清了。

上图中的模型是线性回归，有两个特征，要优化的参数分别是w1和w2，左图的正则化是l2，右图是l1。蓝色线就是优化过程中遇到的等高线，一圈代表一个目标函数值，圆心就是样本观测值（假设一个样本），半径就是误差值，受限条件就是红色边界（就是正则化那部分），二者相交处，才是最优参数。可见右边的最优参数只可能在坐标轴上，所以就会出现0权重参数，使得模型稀疏。

再补充一个角度：
正则化其实就是对模型的参数设定一个先验，这是贝叶斯学派的观点，不过我觉得也可以一种理解。
L1正则是laplace先验，l2是高斯先验，分别由参数sigma确定。
求不要追究sigma是不是也有先验，那一路追究下去可以天荒地老。

原文地址：https://www.cnblogs.com/mingfengshan/p/6934814.html