• [基础] Loss function (二)


    Loss function = Loss term(误差项) + Regularization term(正则项),上次写的是误差项,这次正则项。

    正则项的解释没那么直观,需要知道不适定问题,在经典的数学物理中,人们只研究适定问题。适定问题是指满足下列三个要求的问题:①解是存在的(存在性);②解是惟一的(唯一性);③解连续依赖于初边值条件(稳定性)。这三个要求中,只要有一个不满足,则称之为不适定问题。特别,如果条件③不满足,那么就称为阿达马意义下的不适定问题。一般地说不适定问题,常常是指阿达马意义下的不适定问题。

    求解不适定问题的普遍方法是:用一组与原不适定问题相“邻近”的适定问题的解去逼近原问题的解,这种方法称为正则化方法。正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。

    正则项有以下几种:L0, L1, L2

    L0很简单,即为0的单元越多越好,即越稀疏越好,直观粗暴;不过求解过程是NP问题。

    L1的宗旨也是稀疏,不过是参数绝对值之和越小越好;可以说是L0的最优凸近似

    L2是参数平方和再求平方根

    总结三种正则项:

    L1优点是能够获得sparse模型,对于large-scale的问题来说这一点很重要,因为可以减少存储空间。缺点是加入L1后目标函数在原点不可导,需要做特殊处理。

    L2优点是实现简单,能够起到正则化的作用。缺点就是L1的优点:无法获得sparse模型。

    实际上L1也是一种妥协的做法,要获得真正sparse的模型,要用L0正则化

    求解:L2 > L1 > L0

    性能:L0 > L1 > L2 (可以这么理解,吧...)

  • 相关阅读:
    Linux启动ftp服务器530 Permission denied解决方法
    Cloudera的CDH和Apache的Hadoop的区别
    我的vm虚拟机网络设置
    本地Yum软件源安装Cloudera Manager 5
    SSH无法登陆服务器,但是可以ping通,解决方法
    Linux (CentOS)增加删除用户
    SSH创建公钥实现无密码操作失败原因
    chkconfig命令详解
    camon详细解决过程
    @修饰器
  • 原文地址:https://www.cnblogs.com/littletail/p/5339601.html
Copyright © 2020-2023  润新知