An overview of gradient descent optimization algorithms (更新到Adam)

An overview of gradient descent optimization algorithms (更新到Adam)

Momentum:解快了收敛速度，同时也减弱了SGD的波动

NAG: 减速了Momentum更新参数太快

Adagrad: 出现频率较低参数采用较大的更新，对于出现频率较高的参数采用较小的,不共用一个学习率

Adadelta:解决了Adagrad后续学习率为0的缺点，同时不要defalut 学习率

RMSprop:解决了Adagrad后续学习率为0的缺点

Adam: 结合了RMSprop和Momentum的优点，Adam might be the best overall choice

参考博客：http://ruder.io/optimizing-gradient-descent/index.html#batchgradientdescent（真大神）

　　　　

　　　　

　　　　

　　

　　　　

　　　　

　　　　

　　　　

　　　　　　

　　　　　　

　　　　

　　　　

　　　　

　　　　

　　　　　　

　　　　　　

　　　　　　
相关阅读:
C语言：运算结果保留两位小数
 FFmpeg: AVFrame中的data和extend_data的区别
 android studio: 配置版权信息(转)
C++: C++11 成员函数作为pthread线程 (转)
android studio: 取消行注释在第一列
 C 语言 int 读写是否需要加锁
 【转】浅析Linux中的零拷贝技术--简单形象
 【转】Linux 内核态与用户态--简明清晰的介绍
 delete如何找到多重继承对象的内存块起始地址
 【转】内存管理内幕mallco及free函数实现--简易内存分配器、内存池、GC技术
原文地址：https://www.cnblogs.com/wuxiangli/p/9236061.html