L0, L1, L2, p范数及其在损失函数中的使用 - 润新知

L0, L1, L2, p范数及其在损失函数中的使用
对于向量 \(x=[x_1,\;x_2,\;...,\;x_n]\)，各范数定义如下所示
- p-范数：\(\left \| X \right \|_p = (\left| x_1 \right|^p + \left| x_2 \right|^p + ... + \left| x_n \right|^p)^\frac{1}{p}\)
- L1范数，p-范数中p=1的情况，即各元素绝对值之和：\(\left \| X \right \|_1 = (\left| x_1 \right| + \left| x_2 \right| + ... + \left| x_n \right|)\)
- L2范数，p-范数中p=2的情况，即各元素平方和再开平方：\(\left \| X \right \|_2 = (\left| x_1 \right|^2 + \left| x_2 \right|^2 + ... + \left| x_n \right|^2)^\frac{1}{2}\)
- L0范数：指向量中非0元素的个数。
- 无穷范数：指向量中元素绝对值中的最大值。
作为损失函数时：
- L2范数损失函数，也被称为最小平方误差（LSE）。它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的差值的平方和最小化。一般回归问题会使用此损失，离群点对次损失影响较大。
- L1损失函数，也被称为最小绝对值偏差（LAD），绝对值损失函数（LAE）。总的说来，它是把目标值 \(y_i\) 与估计值 \(f(x_i)\) 的绝对差值的总和最小化。
- L1损失函数相比于L2损失函数的鲁棒性更好。因为L2范数的平方操作使模型的误差会比L1范数的计算结果大的多，模型需要调整以最小化误差，当遇到异常样本时便使得训练模型的方向偏离目标。
- L0范数本身是特征选择的最直接最理想的方案，最小化L0范数可以寻找最少最优的稀疏特征项，但它的最小化在实际应用中是NP难问题。因此实际应用中通常使用L1来得到L0的最优凸近似。
- L2相对于L1具有更为平滑的特性，当遇到两个对预测有帮助的特征时，L1倾向于选择较大者，L2倾向把两者结合起来。
相关阅读:
浅谈面向对象语言中对象的使用
 淘宝店铺搜索工具(提升淘宝店铺排名人气)
JavaScript学习总结二：js闭包(Closure)概念
 JavaScript学习总结一：js常见问题
 GC原理解析（c#）
VS2010中的测试（2）——单元测试
 VS2010中的测试（3）——数据驱动单元测试
 领域驱动设计实践（二）
俞敏洪在清华励志演讲
 Ioc最佳实践
原文地址：https://www.cnblogs.com/Stareven233/p/16393315.html

Copyright © 2020-2023 润新知