动手学深度学习 | ResNet为什么能训练出1000层的模型 | 28 - 润新知

动手学深度学习 | ResNet为什么能训练出1000层的模型 | 28
目录
- ResNet的梯度计算
- QA
ResNet的梯度计算

最最核心的思想就是乘法变加法。

如果是这种情况，加入g()这一层已经学的很好了，那么梯度就会变小，这样就对f()的梯度也会越来越小（相当于小数字的累乘）

但是如果是残差结构的话，直接使用加法，那么即使g()学的很好，其梯度很小，也不会影响f()的梯度。

正常的深度结构只能是从上至下，但是残差的这个跳转结构，相当于数据可以从这条跳转的“高速公路”直接下来。（原来的深层神经网络最大的问题也是底层的参数更新）

QA
1. 学习率可不可让靠近输出的小一些，靠近输入的大一些，这样会不会缓解梯度消失的问题？
可以的。但是它的问题是你不是那么好设置它的数值。
1. 为什么深层的网络，底层比较难训练？是因为它拿到的梯度一般比较小？
是的。

梯度消失：小数值累乘。

梯度爆炸：大数值累乘。
相关阅读:
构建之法阅读笔记03
周进度条
 周活动总结表
 电脑桌面美化
 如何让自己进步，去做成一件事
 后台网站
 laravel RBAC权限管理学习
 laravle定时任务
 django第一次简单讲解使用
 css3网页的淡入淡出效果
原文地址：https://www.cnblogs.com/Rowry/p/15363429.html

Copyright © 2020-2023 润新知