• [pytorch]pytorch loss function 总结


    原文: http://www.voidcn.com/article/p-rtzqgqkz-bpg.html

    最近看了下 PyTorch 的损失函数文档,整理了下自己的理解,重新格式化了公式如下,以便以后查阅。

    注意下面的损失函数都是在单个样本上计算的,粗体表示向量,否则是标量。向量的维度用 N 表示。

    nn.L1Loss

    loss(x,y)=1Ni=1N|xy|

    nn.SmoothL1Loss

    也叫作 Huber Loss,误差在 (-1,1) 上是平方损失,其他情况是 L1 损失。

    loss(x,y)=1N12(xiyi)2|xiyi|12,if |xiyi|<1otherwise

    nn.MSELoss

    平方损失函数

    loss(x,y)=1Ni=1N|xy|2

    nn.BCELoss

    二分类用的交叉熵,TODO

    loss(o,t)=1Ni=1N[tilog(oi)+(1ti)log(1oi)]

    nn.CrossEntropyLoss

    交叉熵损失函数

    loss(x,label)=logexlabelNj=1exj=xlabel+logj=1Nexj

    x 是没有经过 Softmax 的激活值。参考 cs231n 作业里对 Softmax Loss 的推导。

    nn.NLLLoss

    负对数似然损失函数(Negative Log Likelihood)

    loss(x,label)=xlabel

    在前面接上一个 LogSoftMax 层就等价于交叉熵损失了。注意这里的 xlabel 和上个交叉熵损失里的不一样(虽然符号我给写一样了),这里是经过 log 运算后的数值,

    nn.NLLLoss2d

    和上面类似,但是多了几个维度,一般用在图片上。

    • input, (N, C, H, W)
    • target, (N, H, W)

    比如用全卷积网络做 Semantic Segmentation 时,最后图片的每个点都会预测一个类别标签。

    nn.KLDivLoss

    KL 散度,又叫做相对熵,算的是两个分布之间的距离,越相似则越接近零。

    loss(x,y)=1Ni=1N[yi(logyixi)]

    注意这里的 xi log 概率,刚开始还以为 API 弄错了。

    nn.MarginRankingLoss

    评价相似度的损失

    loss(x1,x2,y)=max(0,y(x1x2)+margin)

    这里的三个都是标量,y 只能取 1 或者 -1,取 1 时表示 x1 比 x2 要大;反之 x2 要大。参数 margin 表示两个向量至少要相聚 margin 的大小,否则 loss 非负。默认 margin 取零。

    nn.MultiMarginLoss

    多分类(multi-class)的 Hinge 损失,

    loss(x,y)=1Ni=1,iyNmax(0,(marginxy+xi)p)

    其中 1yN 表示标签, p 默认取 1, margin 默认取 1,也可以取别的值。参考 cs231n 作业里对 SVM Loss 的推导。

    nn.MultiLabelMarginLoss

    多类别(multi-class)多分类(multi-classification)的 Hinge 损失,是上面 MultiMarginLoss 在多类别上的拓展。同时限定 p = 1,margin = 1.

    loss(x,y)=1Ni=1,iyjnj=1yj0[max(0,1(xyjxi))]

    这个接口有点坑,是直接从 Torch 那里抄过来的,见 MultiLabelMarginCriterion 的描述。而 Lua 的下标和 Python 不一样,前者的数组下标是从 1 开始的,所以用 0 表示占位符。有几个坑需要注意,

    1. 这里的 x,y 都是大小为 N 的向量,如果 y 不是向量而是标量,后面的 j 就没有了,因此就退化成上面的 MultiMarginLoss.
    2. 限制 y 的大小为 N ,是为了处理多标签中标签个数不同的情况,用 0 表示占位,该位置和后面的数字都会被认为不是正确的类。如 y=[5,3,0,0,4] 那么就会被认为是属于类别 5 和 3,而 4 因为在零后面,因此会被忽略。
    3. 上面的公式和说明只是为了和文档保持一致,其实在调用接口的时候,用的是 -1 做占位符,而 0 是第一个类别。

    举个梨子,

    import torch
    loss = torch.nn.MultiLabelMarginLoss()
    x = torch.autograd.Variable(torch.FloatTensor([[0.1, 0.2, 0.4, 0.8]]))
    y = torch.autograd.Variable(torch.LongTensor([[3, 0, -1, 1]]))
    print loss(x, y) # will give 0.8500

    按照上面的理解,第 3, 0 个是正确的类,1, 2 不是,那么,

    loss=14i=1,2j=3,0[max(0,1(xjxi))]=14[(1(0.80.2))+(1(0.10.2))+(1(0.80.4))+(1(0.10.4))]=14[0.4+1.1+0.6+1.3]=0.85

    *注意这里推导的第二行,我为了简短,都省略了 max(0, x) 符号。

    nn.SoftMarginLoss

    多标签二分类问题,这 N 项都是二分类问题,其实就是把 N 个二分类的 loss 加起来,化简一下。其中 y 只能取 1,1 两种,代表正类和负类。和下面的其实是等价的,只是 y 的形式不同。

    loss(x,y)=i=1Nlog(1+eyixi)

    nn.MultiLabelSoftMarginLoss

    上面的多分类版本,根据最大熵的多标签 one-versue-all 损失,其中 y 只能取 1,1 两种,代表正类和负类。

    loss(x,y)=i=1N[yilogexi1+exi+(1yi)log11+exi]

    nn.CosineEmbeddingLoss

    余弦相似度的损失,目的是让两个向量尽量相近。注意这两个向量都是有梯度的。

    loss(x,y)={1cos(x,y)max(0,cos(x,y)+margin)if if y==1y==1

    margin 可以取 [1,1] ,但是比较建议取 0-0.5 较好。

    nn.HingeEmbeddingLoss

    不知道做啥用的。另外文档里写错了, x,y 的维度应该是一样的。

    loss(x,y)=1N{ximax(0,marginxi)if if yi==1yi==1

    nn.TripleMarginLoss

    L(a,p,n)=1N(i=1Nmax(0, d(ai,pi)d(ai,ni)+margin))
    其中 d(xi,yi)=xiyi22
  • 相关阅读:
    linux之scp
    Supervisor之浅谈
    Linux 命令之 2>&1 &
    python多线程实现异步
    python之多进程demo1
    二分查找(python)
    awk命令之小结1
    修改文件权限之chmod
    处理日期数据
    stack unstack pivot 数据的透视
  • 原文地址:https://www.cnblogs.com/kk17/p/10246324.html
Copyright © 2020-2023  润新知