• L0, L1, L2, p范数及其在损失函数中的使用


    对于向量 \(x=[x_​1,\;x_​2,\;...,\;x_​n]\),各范数定义如下所示

    • p-范数:\(\left \| X \right \|_p = (\left| x_1 \right|^p + \left| x_2 \right|^p + ... + \left| x_n \right|^p)^\frac{1}{p}\)
    • L1范数,p-范数中p=1的情况,即各元素绝对值之和:\(\left \| X \right \|_1 = (\left| x_1 \right| + \left| x_2 \right| + ... + \left| x_n \right|)\)
    • L2范数,p-范数中p=2的情况,即各元素平方和再开平方:\(\left \| X \right \|_2 = (\left| x_1 \right|^2 + \left| x_2 \right|^2 + ... + \left| x_n \right|^2)^\frac{1}{2}\)
    • L0范数:指向量中非0元素的个数。
    • 无穷范数:指向量中元素绝对值中的最大值。

    作为损失函数时:

    • L2范数损失函数,也被称为最小平方误差(LSE)。它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的差值的平方和最小化。一般回归问题会使用此损失,离群点对次损失影响较大。
    • L1损失函数,也被称为最小绝对值偏差(LAD),绝对值损失函数(LAE)。总的说来,它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的绝对差值的总和最小化。
    • L1损失函数相比于L2损失函数的鲁棒性更好。因为L2范数的平方操作使模型的误差会比L1范数的计算结果大的多,模型需要调整以最小化误差,当遇到异常样本时便使得训练模型的方向偏离目标。
    • L0范数本身是特征选择的最直接最理想的方案,最小化L0范数可以寻找最少最优的稀疏特征项,但它的最小化在实际应用中是NP难问题。因此实际应用中通常使用L1来得到L0的最优凸近似。
    • L2相对于L1具有更为平滑的特性,当遇到两个对预测有帮助的特征时,L1倾向于选择较大者,L2倾向把两者结合起来。
  • 相关阅读:
    浅谈面向对象语言中对象的使用
    淘宝店铺搜索工具(提升淘宝店铺排名人气)
    JavaScript学习总结二:js闭包(Closure)概念
    JavaScript学习总结一:js常见问题
    GC原理解析(c#)
    VS2010中的测试(2)——单元测试
    VS2010中的测试(3)——数据驱动单元测试
    领域驱动设计实践(二)
    俞敏洪在清华励志演讲
    Ioc最佳实践
  • 原文地址:https://www.cnblogs.com/Stareven233/p/16393315.html
Copyright © 2020-2023  润新知