1:导数/偏微分/梯度
区别:
(1)
导数是一个没有方向之分的标量。
偏微分是一个有多个方向的标量。
梯度是一个向量。
(2)
导数反应的是变化量
2:如何搜索极小值:可能影响优化器的几种因素
(1)局部极小值
实际中的局部最小值实例:
(2)鞍点
(3)初始状态/学习率/动量
(3.1.1)初始状态
【注】不同的初始状态可能会使搜索陷入不同的局部最小值
(3.1.2)学习率
【注】当学习率过大时,可能会导致跳过极小值。好的情况下,会出现震荡,震荡到极小值。
(3.1.3)动量:添加动量逃离局部极小值
【注】可以把其理解为惯性。当到图中x=0处,会综合梯度,其综合梯度会帮助逃离局部极小值。