• L1, L2正则


    正则的目的:规范模型参数,降低模型复杂度,减少过拟合

    \[||w||_1 = \sum_1^N |w_i| \]

    \[||w||_2 = \sqrt {\sum_1^N |w_i|^2} \]

    拉格朗日对偶角度

    模型经过训练后得到的W与b可能很小,也可能很大。
    若W与b较大,在测试数据时,$ W*X $会放大输入中的误差与噪声
    因此,需要给W划定可行域范围,使其在训练时尽可能小。

    1. \[min\ J(W,b,x) \\ s.t. ||w||_1 - C <= 0 \]

    i.e., W 在高维空间中与原点的L1(曼哈顿)距离小于等于 C
    2. $$ min\ J(W,b,x) \ s.t. ||w||_2 - C <= 0 $$
    i.e., W 在高维空间中与原点的L2(欧几里得)距离小于等于 C

    构造拉格朗日函数:

    \[ \begin{aligned} L(s,\lambda) &= J(s) + \lambda(||w||_1 - C) \\ &= J(w) + \lambda||w||_1 - \lambda C \\ \end{aligned} \\ \\ \begin{aligned} \hat{L}(s,\lambda) &= L(s,\lambda) + \lambda C\\ &= J(w) +\lambda||w||_1 \end{aligned}\]

    其中,$ \hat{L}(s,\lambda)= J(w) +\lambda||w||_1$ 是常见的目标函数形式:$ min\ Obj=Cost+Regularization\ Term$

    权重衰减角度

    无正则项的情况下,权重更新:

    \[w_{i+1} = w_i - \frac{\partial Obj}{\partial w_i} = w_i - \frac{\partial loss}{\partial w_i} \]

    有正则项(L2):

    \[w_{i+1} = w_i - \alpha (\frac{\partial loss}{\partial w_i} + \lambda w_i) = w_i(1-\alpha \lambda)-\alpha \frac{\partial loss}{\partial w_i} \]

    其中,$ \alpha $ 为学习率
    l1与l2的区别:
    l1具有稀疏性。

    假设x,y轴代表两种特征,l1正则方法与loss的等高线更容易相切于y轴,在此情况下,x轴的值为0。等同于只有y轴特征起作用,x轴特征不起作用,实现特征间去耦合。

  • 相关阅读:
    定时任务cron表达式解析
    dubbo admin的搭建(windows环境)
    搭建一个基于springboot的dubbo demo
    mysql考试成绩排名-关于@rowtotal、@rownum
    理解JMM及volatile关键字
    UnityLearn_Beginner_UnityTips
    UnityLearn_Beginner_UnityBasics
    Unity3D&Photon制作吃鸡游戏(未完)
    UNITY_UGUI
    UNITY_资源路径与加载外部文件
  • 原文地址:https://www.cnblogs.com/ArdenWang/p/16039538.html
Copyright © 2020-2023  润新知