AI-2.梯度下降算法

AI-2.梯度下降算法

上节定义了神经网络中几个重要的常见的函数，最后提到的损失函数的目的就是求得一组合适的w、b

先看下损失函数的曲线图，如下

即目的就是求得最低点对应的一组w、b，而本节要讲的梯度下降算法就是会一步一步地更新w和b

通过公式w’ = w – r * dw 改变w的值

梯度下降算法就是重复的执行上面的公式来不停的更新w的值，新的w的值（w’）等于旧的w减去学习率r与偏导数dw的乘积。r表示学习步进/学习率（learning rate），假设w是10，又假设dw为1，r为4时，那么在第一次梯度下降后，w’的值将变成6，而当r为2时，那么第一次下降后，w’将是8，从10变成了8比起从10变成6，变化得没有那么大，因为变化率r比较小。r是我们用来控制w的变化步进的参数。dw是参数w关于损失函数J的偏导数，偏导数说白了就是斜率。斜率就是变化比例，即当w改变一点点后J会相应的改变多少。看上图中的黄色的小三角，在w的初始值（假设为6）的位置的偏导数/斜率/变化比例就是小三角的高除以低边（J的变化除以w的变化），也就是在当w为6时J函数的变化与w的变化之比，曲线越陡，那么三角形越陡，那么斜率越大，那么当w的值改变一丁点后（例如减1）那么J相应的改变就会越大（假设会减小3），在下面那个小三角的位置（假设那里的w是4），这个位置的曲线不是那么的陡，即斜率比较小，那么在那里w的值改变一点后（例如也减小1）但J相应的改变却没有那么大了（可能只减小1.5）。这个斜率dw就是J的变化与w的变化的比例，就是说，我们按照这个比例去使w越来越小那么它相应的J也会越来越小，最终达到我们的目的，找到J最小值时w的值是多少。损失函数J的值越小，表示预测越精准。神经网络就是通过这种方法来进行学习的，通过梯度下降算法来一步一步改变w和b的值，使损失函数越来越小，使预测越来越精准。

要解释下这里的r，用它来控制w改变的步进，避免错过w的最佳值，所以选对一个r很重要，至于如何选择，后续介绍啦~

部分转载：http://blog.csdn.net/jiangjunshow
相关阅读:
java kafka单列模式生产者客户端
 手机视频加手机壳小软件
 Jetbrains系列产品(Pycharm IDEA)2020.1及以下版本最新安装方法
 快速解决网页不能复制问题
 MATLAB 2018a软件安装教程
 有哪些超级良心的电脑软件，让你相见恨晚？
SPSS 25安装资源及其安装教程！！
SPSS 25 Mac版安装资源及其安装教程！！
IDE | Pycharm 2020.1.3 安装教程
 MATLAB 2018a软件安装教程
原文地址：https://www.cnblogs.com/beautifullife4e/p/10254867.html

最新文章
就叫它留言板吧
 CF1379题解-蛤蛤打CF的方式大揭秘
 SDOI2020 游记
 长链剖分
 组合计数
 ZR-19CSP-S赛前冲刺
 Comet OJ
动态规划
 kd-Tree
数论相关