• Batch Normalization 反向传播(backpropagation )公式的推导


    What does the gradient flowing through batch normalization looks like ?

    反向传播梯度下降权值参数更新公式的推导全依赖于复合函数求梯度时的链式法则

    1. Batch Normalization

    给定输入样本 xRN×D,经过一个神经元个数为 H 的隐层,负责连接输入层和隐层的权值矩阵 wRD×H,以及偏置向量 bRH

    Batch Normalization 的过程如下:

    • 仿射变换(affine transformation)

      h=XW+b

      显然 hRN×H

    • batch normalization 变换:

      y=γh^+β

      其中 γ,β 是待学习的参数,h^h 去均值和方差归一化的形式:

      h^=(hμ)(σ2+ϵ)1/2

      进一步其标量形式如下:

      hˆkl=(hklμl)(σ2l+ϵ)1/2

      l={1,,H}μσ 分别是对矩阵 hRN×H 的各个属性列,求均值和方差,最终构成的均值向量和方差向量。

      μl=1Nphpl,σ2l=1Np(hplμl)2

    2. Lh,Lγ,Lβ 的计算

    首先我们来看损失函数 L 关于隐层输入偏导的计算:

    dLdh=dLdh11..dLdhN1..dLdhkl...dLdh1H..dLdhNH.

    又由于:

    h=XW+b,hh^,h^y

    由链式法则可知:

    Lhij=k,lLyklyklh^klh^klhij

    显然其中 yklh^kl=γl

    又由于:

    hˆkl=(hklμl)(σ2l+ϵ)1/2,μl=1Nphpl,σ2l=1Np(hplμl)2

    所以:

    dh^kldhij=(δikδjl1Nδjl)(σ2l+ϵ)1/212(hklμl)dσ2ldhij(σ2l+ϵ)3/2

    根据 σ2lhij 的计算公式可知:

    dσ2ldhij====2Np(hplμl)(δipδjl1Nδjl)p=12N(hilμl)δjl2Nδjl1Np(hplμl)2N(hilμl)δjl2Nδjl1Nphplμl02N(hilμl)δjl

  • 相关阅读:
    Tensorflow卷积接口总结
    《MuseGAN: Multi-track Sequential Generative Adversarial Networks for Symbolic Music Generation and Accompaniment》论文阅读笔记
    核函数
    KCF跟踪算法
    岭回归、lasso
    C++的命令行参数(gflag)
    Python的命令行参数(argparse)
    size_t为什么重要
    linux下caffe的命令运行脚本
    卡尔曼滤波
  • 原文地址:https://www.cnblogs.com/mtcnn/p/9421693.html
Copyright © 2020-2023  润新知