• 深度神经网络常用优化算法


    MINI-BRATCH

    这个就是把一个大训练集分成几个小训练集去训练

    主要原因,,,,是因为训练集太大,显存塞不下

    这样的话,loss会有一定波动,就是有时上升,有时下降,但总体趋势是下降的

    最后精度上升到一个值后,训练很多次都没有上升,训练完成

    动量梯度下降:

    简单来说就是在训练一整个训练集的时候

    w =  w - dw_change

    b同理

    dw_change 是这么得出来的

    以下dw_change简写为dw_c

    dw_c1 = a * dw_c0 + (1 - a) * dw1

    dw_c2 = a * dw_c1 + (1 - a) * dw2

    实际上就是削弱了一个训练集对w的影响

    其实这个东西更像一个求平均值的过程,因为有求了这个平均值所以,我们loss上下摆动的幅度会变小

    而且我们想最优解移动的步伐会加大(因为累加了之前的数嘛)

    这样就加速了训练

    红点是最优解

    蓝色是用普通的梯度下降

    红色是用动量梯度下降法

    但是有一个问题,就是在做指数加权平均时,在训练刚开始的阶段,由于我们的训练样本对w,b的影响较小,使得训练变慢

    这个时候可以暂时先不用指数加权平均,之后再用,比如训练了200个样本之后

    也可以熬过前面这训练刚开始的阶段

    我一般选择熬过这一阶段,因为另一个方法写起来太复杂了

    RMS_Prob

    s_dw = b * s_dw + (1 - b) * dw * dw

    w = w - a * (dw/更号(s_dw))

    对于b也是这样的

    那么对于某一步而言,如果这一步在某一维(wi)上波动较大

    那么dw变大  ->  s_dw变大

     dw/更号(s_dw) 变小

    减小了这一步在wi这一维上的波动

    同理, 如果这一步在某一维上的波动过小

    那RMS_Prop也能提高在这一维上的波动

    总的来说,RMS_Prob会让loss的下降在一定的,我们可以接受的范围内波动

    从而使训练的方向更多的指向最优解,加速训练过程

    Adam优化算法:

    可以看见,我的动量梯度下降是优化的分子,RMS_Prob是优化的分母

    两个加起来就是Adam了

    这里就不做详细描述了

    也就是说Adam有4个超参数

    learning_rate, a1(动量梯度下降), a2, b(RMS_Prob)

  • 相关阅读:
    C51 使用端口 个人笔记
    C51 静态数码管 个人笔记
    C51 矩阵按键 个人笔记
    C51 蜂鸣器 个人笔记
    C51 独立按键 个人笔记
    C51 中断 个人笔记
    CC3200 TI 笔记
    iar修改包含路径的方法
    WCF绑定和行为在普通应用和SilverLight应用一些对比
    用批处理来自动化项目编译及部署(附Demo)
  • 原文地址:https://www.cnblogs.com/shensobaolibin/p/8947306.html
Copyright © 2020-2023  润新知