• 反向传播算法推导过程(非常详细)


    原地址:https://zhuanlan.zhihu.com/p/79657669

    1. 前向传播

    假设 [公式] 为 [公式] 的矩阵(其中, [公式] 为样本个数(batch size), [公式] 为特征维数):

    [公式] 与 [公式] 的维数为 [公式] 为 [公式] 的矩阵, [公式]

    [公式] 与 [公式] 的维数为 [公式] 为 [公式] 的矩阵, [公式]

    [公式]

    [公式] 与 [公式] 的维数为 [公式] 为 [公式] 的矩阵, [公式]

    前向算法:

    [公式]

    假设输出为 [公式] 维,则 [公式] 为大小为 [公式] 的矩阵,根据MSE或CE准则可以求得 [公式] ,对于回归问题与分类问题, [公式] 的求解方法如下:

    • 对于回归问题,对out直接计算损失,损失函数为MSE。 损失: [公式]

    [公式]

    • 对于分类问题,out后接softmax进行分类,然后使用CE(cross entropy)计算loss. [公式] 一个样本对应的网络的输出 [公式] 是一个概率分布,而这个样本的标注 [公式] 一般为 [公式] ,也可以看做一个概率分布(硬分布)。cross entropy可以看成是 [公式] 与 [公式] 之间的KL距离:

    [公式]

    • 假设 [公式] ,其中1为第 [公式] 个元素(索引从0开始),令 [公式] .

    损失: [公式] [公式]

    KL距离(相对熵):是Kullback-Leibler Divergence的简称,也叫相对熵(Relative Entropy).它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布 P(x) 对应的每个事件,若用概率分布 Q(x) 编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用 [公式] 表示KL距离,计算公式如下:[公式] ,当两个概率分布完全相同时,即 P(X)=Q(X) ,其相对熵为0.

    2.反向传播

    [公式] ,为了便于详细说明反向传播算法,假设 [公式] 为 [公式] 的向量, [公式] 为 [公式] 的向量: [公式]

    所以, [公式]

    1) 损失 [公式] 对 [公式] 的导数:

    [公式]

    [公式]

    即, [公式]

    2) 损失对偏置b的导数等于将 [公式] 的每一列加起来:

    [公式]

    3) 损失 [公式] 对 [公式] 的导数:

    [公式]

    即,

    [公式]

    [公式]

    4) 损失 [公式] 对 [公式] 的导数:

    [公式]

    • [公式] 为sigmoid时, [公式]

    [公式]

    • [公式] 为tanh时, [公式] .

    [公式]

    • [公式] 为relu时, [公式]

    [公式]

    3. 梯度更新

    对于不同算法 ,梯度更新方式如下: [公式]

  • 相关阅读:
    [React Router v4] Render Catch-All Routes with the Switch Component
    [React Router v4] Render Nested Routes
    关系数据库规范化理论 函数依赖与范式理论
    Notepad++背景颜色设置
    initial pointer [expert c]
    世界微波射频领域传奇人物
    hdu 4619 Warm up 2 ( 二分图最大匹配 )
    关于数据的归档存入文件和读取文件
    android中通过自定义xml实现你需要的shape效果 xml属性配置
    Java和C#中String直接赋值与使用new创建(==与equals进行比较)的区别
  • 原文地址:https://www.cnblogs.com/aabbcc/p/14321276.html
Copyright © 2020-2023  润新知