为什么梯度的反方向为下降速度最快的方向?
x , y 都表示 权重,f 表示损失函数。
1.可由近似公式得到:
\[f(x+ \Delta x,y+\Delta y)=f(x,y)+\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y
\]
2.即:
\[f(x+\Delta x,y+\Delta y)-f(x,y)=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y
\]
3.
\[\Delta z=\frac{\partial f}{\partial x} \cdot \Delta x+\frac{\partial f}{\partial y} \cdot\Delta y
\]
因为\(\Delta z\) 表示变化量 ,最大值表示 变化最大 (增加最大),即增加最快的方向。
最小值表示下降最大,即下降最快的方向。 等式右边可写作向量的形式。
4.
\[(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})\cdot(\Delta x,\Delta y)
\]
左边表示 梯度,所以梯度的反方向 乘积最小,二者夹角-180度, 即下降最快。
5.
所以:
\[(\Delta x,\Delta y) = - a(\frac{\partial f}{\partial x},\frac{\partial f}{\partial y})
\]
所以:
\[x+\Delta x = x-a\cdot\frac{\partial f}{\partial x}
\]
\[y+\Delta y = y-a\cdot\frac{\partial f}{\partial y}
\]