优化器SGD、SGD with momentum、Adagrad、RMSProp、Adam

优化器SGD、SGD with momentum、Adagrad、RMSProp、Adam

一、SGD（梯度下降）

　　在多变函数中，梯度是一个方向，梯度的方向指出了函数在给定点上升最快的方向，或者说指引了函数值增大的方向，因此我们只要考虑往梯度的反方向走，就至少能走到极小值，可能能走到全局最小值。

　　

二、SGD with momentum（动量法：梯度累加）

　　动量累加：震荡方向的梯度相互抵消，梯度小的方向逐渐累加。

　　

三、Adagrad（自适应：调整学习率）

　　调整步长：震荡方向的步长很小，梯度小的方向步长变大。

　　

四、RMSProp（历史累计在衰减）

　　Adagrad梯度小的方向，步长一开始比较大，但逐渐减小（梯度一直在累加，步长一直在减小），此时就失去了调节作用。

　　

五、Adam（融合了动量和自适应，避免了冷启动）

　　冷启动：一开始更新是很小的改动，对其进行修正，使其幅度变大。

　　
相关阅读:
Python 字符串（一）
UVA 11552 四 Fewest Flops
UVA 10534 三 Wavio Sequence
UVA 1424 二 Salesmen
UVA 11584 一 Partitioning by Palindromes
CodeForces 549G Happy Line
CodeForces 451C Predict Outcome of the Game
CodeForces 567C Geometric Progression
CodeForces 527B Error Correct System
CodeForces 552C Vanya and Scales
原文地址：https://www.cnblogs.com/yqw0710/p/16036051.html