一、SGD(梯度下降)
在多变函数中,梯度是一个方向,梯度的方向指出了函数在给定点上升最快的方向,或者说指引了函数值增大的方向,因此我们只要考虑往梯度的反方向走,就至少能走到极小值,可能能走到全局最小值。
二、SGD with momentum(动量法:梯度累加)
动量累加:震荡方向的梯度相互抵消,梯度小的方向逐渐累加。
三、Adagrad(自适应:调整学习率)
调整步长:震荡方向的步长很小,梯度小的方向步长变大。
四、RMSProp(历史累计在衰减)
Adagrad梯度小的方向,步长一开始比较大,但逐渐减小(梯度一直在累加,步长一直在减小),此时就失去了调节作用。
五、Adam(融合了动量和自适应,避免了冷启动)
冷启动:一开始更新是很小的改动,对其进行修正,使其幅度变大。