关于BarchNorm的一些学习

关于BarchNorm的一些学习

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》

1、Batch Normalization 并不能缓解深度网络梯度爆炸问题，反而是梯度爆炸的原因。一般通多跳跃连接，或者残差连接解决这个问题。参考论文《A Mean Field Theory of Batch Normalization》

2、Batch Normalization 成功的一个原因可能是将权重向量进行了解耦，分别解耦成方向和长度，然后分别训练。这可以加快收敛

3、Batch Normalization 并不能缓解内部协变量偏移。参考论文《How Does Batch Normalization Help Optimization?》，这篇文章也在一定程度上解释了这个问题。

4、Batch Normalization 另一个成功的原因可能是产生了更平滑的参数空间和更平滑的梯度。参考论文《How Does Batch Normalization Help Optimization?》

5、Batch Normalization 可以缓解梯度消失问题。在网络层数加深的时候，会影响我们每一层输出的数据分布。而之所以训练收敛慢，一般是整体分布逐渐往非线性函数的取值区间的上下限两端靠近（以Sigmoid函数为例），所以这导致后向传播时低层神经网络的梯度很小甚至消失，这是训练深层神经网络收敛越来越慢的本质原因，而BN就是通过一定的规范化手段，把每层神经网络任意神经元这个输入值的分布强行拉回到均值为0方差为1的标准正态分布，这样使得激活输入值落在非线性函数对输入比较敏感的区域，这样输入的小变化就会导致损失函数较大的变化，所以就可以让梯度变大，避免梯度消失问题产生，而且梯度变大意味着学习收敛速度快，能大大加快训练速度。

6、Batch Normalization：训练阶段使用Batch Normalization，推理阶段不使用Batch Normalization（由于在推理阶段，输入实例只有一个，看不到Mini-Batch其他实例，所以无法得到均值和方差。但是我们可以从训练实例中获得Mini-Batch里面m个训练实例获得的均值和方差的统计量。我们可以获取到训练实例全局统计量，对这些均值和方差求出其对应的数学期望，就可以得到我们需要的均值和期望，然后利用每个层已经有对应训练好的scale和shift，就可以在推理阶段对每个神经元的激活数据计算NB进行变换了。
相关阅读:
koa 基础（十）原生node.js 在 koa 中获取表单提交的数据
 koa 基础（九） ejs 模板引擎的使用
 koa 基础（八）koa 中间件的执行顺序
 koa 基础（七）错误处理中间件
 [翻译] KVNProgress
编写带有点击特效的UIButton
用Easing函数实现碰撞效果
 EasingAnimation
什么时候会执行viewDidLoad方法
 UIButton的两种block传值方式
原文地址：https://www.cnblogs.com/peixu/p/16290463.html