• 机器学习第七讲


    第七讲、最优化

    1.优化目标

    2.梯度下降

    ①batch

    ②随机梯度下降SGD

    训练一个样本,更新—次参数; mini-batch是SGD的推广,通常所说SGD即是mini-batch。

    ③病态条件

    病态条件:不同方向有不同的梯度;学习率的选择困难。

    ④局部最小

    局部最小(local minima) 权重空间是对称的/放大或者缩小权重。

    以前的观点:局部最小是一个严重的问题。

    现在:情况不同!

    部最小非常接近于训练误差;实验和理论支持

    ⑤鞍点

    鞍点(saddle points) 梯度为0,Hessian矩阵同时存在正值和负值

    Heissan矩阵的所有特征值为正值的概率很低·

    对于高维情况,鞍点和局部最小点的数量多

    ⑥平台

    定义:梯度为零,hessian矩阵也为0

    加入噪音使得从平台区域跳出。

    ⑦梯度爆炸与悬崖 在RNN中非常常见,参数不断相乘导致;

    长期时间依赖性。

    解决办法:梯度截断(gradient clipping),启发式梯度截断干涉以减少步长。

    3.动量法

     

     

    ·p也可以随着迭代次数的增大而变大随着时间推移调整p比收缩n更重要。

    动量法克服了SGD中的两个问题:

    • Hessian矩阵的病态问题(右图解释)·

    • 随机梯度的方差带来的不稳定。

    ②Nesterov动量法

     

     

    ③AdaGrad

    ④RMSPro

    ⑥adam

  • 相关阅读:
    NOI2014题解
    BZOJ 3514 (动态树)
    [HNOI 2013] 旅行 (数学)
    [HNOI 2013] 消毒 (搜索,二分图匹配)
    大学的第一个自己的程序
    回归了
    OI——不后悔的两年
    对于民科吧s5_or吧友自增树的复杂度计算
    好久没有冒过泡了。。。
    非常无聊——STD::sort VS 基数排序
  • 原文地址:https://www.cnblogs.com/dwx8845/p/14358918.html
Copyright © 2020-2023  润新知