dying relu 和weight decay

weight decay就是在原有loss后面，再加一个关于权重的正则化，类似与L2 正则，让权重变得稀疏；

参考：https://www.zhihu.com/question/24529483

dying relu是当梯度值过大时，权重更新后为负数，经relu后变为0，导致后面也不再更新。

三种办法：leak-relu、降低学习率、用 momentum based 优化算法，动态调整学习率

参考：https://www.zhihu.com/question/67151971

在训练模型时，有时候需要对新加入的数据进行finetune，但可能finetune不动了，这就有可能是kernel为0了（weight decay和 dying relu造成的）。

解决的办法是，训练的时候固定scale。

参考：https://zhuanlan.zhihu.com/p/61587832

另参考

为什么bn后不加bias：

https://blog.csdn.net/u010698086/article/details/78046671

https://blog.csdn.net/hjxu2016/article/details/81813535

https://blog.csdn.net/elysion122/article/details/79628587

相关阅读:
c-复习基础
java-根据起止IP获取IP段集合
java-随机数
java-数组
TypeSafe Config使用
日志手段
git 常用命令
看门狗
容器HashSet原理（学习）
容器Vector原理（学习）

原文地址：https://www.cnblogs.com/573177885qq/p/11106870.html