数值优化算法

梯度下降

原始的梯度下降算法：对参数减去当前参数的负梯度

梯度=上一次的梯度和当前梯度的加权和
优点：减少收敛过程中的震荡，使得收敛过程更加平滑，能加速收敛过程。

比Momentum更快：揭开Nesterov Accelerated Gradient的真面目：https://zhuanlan.zhihu.com/p/22810533
做法：提前感知下次的移动方向，针对已知的移动，计算新梯度，在新的梯度上做参数迭代。

参考Nesterov的做法，提前感知移动方向，不同的是，Lookahead可以提前感知k次移动方向，从而进行一次参数更新。较小参数更新过程中的震荡。

与之前相比，均考虑了二阶导。利用二阶导信息来自适应调整学习率。

对梯度值进行压缩，压缩后再更新梯度。
压缩系数 r = r + dw *dw
压缩过程dealta = dw * learning_rate / (小常数 + sqrt(r))
对更大的梯度，进行更大的压缩，小梯度进行小压缩。使得梯度下降更加平滑。

AdaGrad存在的问题：在凸空间中变现良好。但梯度下降过程旺旺处于全局非凸空间中，容易导致参数未进入局部凸空间时，参数已经变得极小。
改进：更多考虑最近的dw，少考虑远处的dw，r更新方式 r = rate * r + dw * dw

与动量梯度下降-> Nesterov动量的应用类似。提前感知一部分移动方向，在新的参数值处计算梯度。重点在于提前感知。

利用了二阶导信息。
融合了rmsprop算法和动量算法的优点：一阶导是利用了动量，二阶导利用了rmsprop。
但是一阶和二阶的修正偏差是在干嘛？

相关阅读:
TPO-17 C2 Reschedule part-time job in campus dining hall
TPO-17 C1 Find materials for an opera paper
TPO-16 C2 Reschedule the medieval history test
D语言中调用C++的std::string遇到的问题分析
D语言与C++做映射时需要注意的事情
D语言与C一起编程时，不用同时写两个C的两个头文件的办法
D语言使用dub编译ms-coff文件
D语言VisualD中使用C/C++与D语言混合编程
D语言在ms-coff文件格式下使用DGUI库
D语言中做图片转换

原文地址：https://www.cnblogs.com/wa007/p/14409339.html