1. 多参数模型
存在多个参数,模型更加复杂,在求梯度下降时需要对每个参数求偏导数,再同时更新参数
2, 特征缩放
不同的特征值的数值范围不同,如下图所示,将特征值可视化后,将形成一个细长的椭圆。而在梯度下降过程中,将可能需要花费长时间、并可能进行波动才能收敛。
为了解决这个问题,可以采用归一化的思路,使其代价函数可视化效果解决于圆形,使特征值范围在-1~1之间。吴老师对于-3~3,-1/3~1/3都是可以接受的
3. 均值归一化
也是预处理中经常采用的一种特征缩放的方法
4. 学习率
吴老师经验:
(1)画出梯度下降时,代价函数的数值,确保梯度下降起作用了
(2)对于不同的问题,梯度下降所需的迭代步数、需要的时间都不同,
(3)另外也可以通过一个自动化收敛测试方法检测收敛情况,但是确定一个收敛的阈值并不容易
(4) 如果不收敛,采用更小的学习率
(5)以三的倍数进行多次尝试