• 损失函数


    损失函数 (loss  function )

            衡量模型输出与真实的标签之间的差距

        

    损失函数:(单样本)

                Loss  =f(y^,y)

             y^:预测函数

             y: 标签函数

    代价函数:(cost function )(总体)

                  

      

                    反映的是总体的平均值

      

    目标函数(objective  function):

                  obj= cost + Regularization Term

                 cost : 最小,表示模型输出与标签的差异

                 regular: (正则项) 最小化

                            让模型不要太复杂,减轻过拟合现象

    【常见的两种损失函数】

      1.MSE (均方误差,Mean  squared   Error)

               输出与标签之差的平方的均值,常在回归任务中使用

    2.CE (cross  Entroy   ,交叉熵)

              交叉熵信息论,用于衡量两个分布的差异,常在分类任务中使用。计算公式:

              

         信息熵:描述信息的不确定度

       自信息:L(x) =-logP(x) ,P(x) 是某事件发生的概率

       信息熵: == 所有可能取值的信息量的期望,

     


      • 概率在0.5 的时候,熵是最大的,不确定性也是最大的
      • 信息熵 越大,信息越不确定
      • 信息熵越小,信息越确定

    【相对熵】

             又称k-L  散度,衡量两个分布之间的差异。公式如下

              

       H(p,q)= H(P)   + D_KL(P||Q),即 交叉熵 =信息熵 + 相对熵

    结论: 优化交叉熵等价于优化相对熵

    【交叉熵】: 衡量俩个概率分布的差异

             概率有两个性质:

               1.概率值是非负的

               2.概率之和等于1

        交叉熵的好伙伴---softmax 函数: 将数据变换待符合概率分布的形式

          

    【softmax 函数】

                 将数据变换到符合概率分布的形式

                

    概率两性质:                                                   softmax  操作:

     1.概率值是非负的                                          1.取指数,实现非负

    2.概率之和等于1                                             2.除以指数之和,实现之和为1

     没有一个损失函数会适合所有的任务,损失函数会涉及算法类型、求导是否容易、数据中异常值的分布问题

    更多损失函数可到PyTorch网站:
    https://pytorch.org/docs/stable/nn.html#loss-functions
    函数解读: https://zhuanlan.zhihu.com/p/61379965

      

                

  • 相关阅读:
    jQuery 集合 搜索操作(父辈元素搜索、同辈元素搜索、子元素搜索)
    struts <s:form action=""> 和 <s:submit action=""> 的区别
    654. 最大二叉树
    701. 二叉搜索树中的插入操作
    617. 合并二叉树
    98. 验证二叉搜索树
    236. 二叉树的最近公共祖先
    700. 二叉搜索树中的搜索
    235. 二叉搜索树的最近公共祖先
    105. 从前序与中序遍历序列构造二叉树
  • 原文地址:https://www.cnblogs.com/huateng/p/15235940.html
Copyright © 2020-2023  润新知