机器学习第七讲

第七讲、最优化

1.优化目标

2.梯度下降

①batch

②随机梯度下降SGD

训练一个样本，更新—次参数； mini-batch是SGD的推广，通常所说SGD即是mini-batch。

③病态条件

病态条件：不同方向有不同的梯度；学习率的选择困难。

④局部最小

局部最小(local minima) 权重空间是对称的/放大或者缩小权重。

以前的观点:局部最小是一个严重的问题。

现在:情况不同!

部最小非常接近于训练误差；实验和理论支持

⑤鞍点

鞍点(saddle points) 梯度为0，Hessian矩阵同时存在正值和负值

Heissan矩阵的所有特征值为正值的概率很低·

对于高维情况，鞍点和局部最小点的数量多

⑥平台

定义：梯度为零，hessian矩阵也为0

加入噪音使得从平台区域跳出。

⑦梯度爆炸与悬崖在RNN中非常常见，参数不断相乘导致；

长期时间依赖性。

解决办法:梯度截断(gradient clipping),启发式梯度截断干涉以减少步长。

3.动量法

·p也可以随着迭代次数的增大而变大随着时间推移调整p比收缩n更重要。

动量法克服了SGD中的两个问题:

②Nesterov动量法

③AdaGrad

④RMSPro

⑥adam

相关阅读:
【BZOJ4915】简单的数字题（数学）
【BZOJ2140】稳定婚姻（匈牙利算法板子题）
【BZOJ2739】最远点（决策单调性）
【AT3526】[ARC082C] ConvexScore（贡献转化+容斥）
【CF1264D2】Beautiful Bracket Sequence（组合数学）
【洛谷2561】[AHOI2002] 黑白瓷砖（Polya定理）
【洛谷3511】[POI2010] MOS-Bridges（混合图欧拉回路）
【洛谷4226】避难所（构造）
【洛谷7453】[THUSCH2017] 大魔法师（线段树+矩乘）
【洛谷3207】[HNOI2010] 物品调度（置换问题）

原文地址：https://www.cnblogs.com/dwx8845/p/14358918.html