梯度下降运算中的使用技巧特征缩放:
确保不同的特征值都处在一个相近的范围之内,这样的梯度下降法能够更快的收敛
如:加入你有一个具有两个特征额问题,x1是房屋面积大小,取值在0-2000之间;
x2是卧室的数量,可能的取值在1到5之间,如果要画出代价函数J(θ)的等值线,代价函数是关于参数θ1和θ2的函数,但是如果x1的取值范围远远大于x2的取值范围的话,那么最终画出来的代价函数J(θ)的等值线就会呈现出一种非常歪斜并且椭圆的形状,一种有效的解决方法就是进行特征缩放,将房子面积除以2000,将卧室数量除以5,如下图所示。
那么代价函数J(θ)的等值线,就会偏移得没有那么严重,入过在这样的代价函数上来执行梯度下降的话,就可以找到一条更加直接的路径通往局部最优,这样使得两个特征x1和x2都在0和1之间,这样得到的梯度下降算法会更快的收敛。我们在执行缩放的时候,通常的目的是将特征的取值约束到-1到1的范围中,
如果J(θ)函数出现下面的情况,可以选择较小的α值,
如果学习率α太小的话,会遇到收敛速度慢的问题,如果α数值比较大,代价函数J(θ)可能不会再每次的迭代中都下降,甚至可能不收敛。在某些情况下,如果学校率α过大的话,也可能出现收敛缓慢的情况,每隔10倍取一个值