• 数值优化算法


    梯度下降

    https://zhuanlan.zhihu.com/p/32626442

    SGD

    原始的梯度下降算法:对参数减去当前参数的负梯度

    动量算法

    梯度=上一次的梯度 和 当前梯度的加权和
    优点:减少收敛过程中的震荡,使得收敛过程更加平滑,能加速收敛过程。

    Nesterov

    比Momentum更快:揭开Nesterov Accelerated Gradient的真面目:https://zhuanlan.zhihu.com/p/22810533
    做法:提前感知下次的移动方向,针对已知的移动,计算新梯度,在新的梯度上做参数迭代。

    Lookahead

    参考Nesterov的做法,提前感知移动方向,不同的是,Lookahead可以提前感知k次移动方向,从而进行一次参数更新。较小参数更新过程中的震荡。

    自适应学习率

    与之前相比,均考虑了二阶导。利用二阶导信息来自适应调整学习率。

    Delta-bar-delta

    AdaGrad

    对梯度值进行压缩,压缩后再更新梯度。
    压缩系数 r = r + dw *dw
    压缩过程dealta = dw * learning_rate / (小常数 + sqrt(r))
    对更大的梯度,进行更大的压缩,小梯度进行小压缩。使得梯度下降更加平滑。

    RMSProp

    AdaGrad存在的问题:在凸空间中变现良好。但梯度下降过程旺旺处于全局非凸空间中,容易导致参数未进入局部凸空间时,参数已经变得极小。
    改进:更多考虑最近的dw,少考虑远处的dw,r更新方式 r = rate * r + dw * dw

    Nesterov

    与动量梯度下降-> Nesterov动量的应用类似。提前感知一部分移动方向,在新的参数值处计算梯度。重点在于提前感知。

    Adam

    利用了二阶导信息。
    融合了rmsprop算法和动量算法的优点:一阶导是利用了动量,二阶导利用了rmsprop。
    但是一阶和二阶的修正偏差是在干嘛?

  • 相关阅读:
    nyist 541最强DE 战斗力
    nyist 231 Apple Tree
    nyist 543 遥 控 器
    nyist 233 Sort it
    nyist 517 最小公倍数
    hdu 1sting
    nyist A+B Problem IV
    nyist 522 Interval
    nyist 117 求逆序数
    nyist 600 花儿朵朵
  • 原文地址:https://www.cnblogs.com/wa007/p/14409339.html
Copyright © 2020-2023  润新知