梯度下降法需要遍历数据集上百次,数据集越大所花费的时间越多。而现在训练的样本集越来越大,造成梯度下降法造成的时间成本非常高,难以规模化。
随机梯度下降法,是从样本集中抽出一小部分数据(随机抽出),用来做梯度下降法。这个虽然会有一点误差,但我们每次只走一小步。他速度更快,并且更容易规模化。
ADAGRAD是GSD的改进版,他自动选择了动量和学习率衰减。使用ADAGRAD通常会使学习过程对超参数不那么敏感。
梯度下降法需要遍历数据集上百次,数据集越大所花费的时间越多。而现在训练的样本集越来越大,造成梯度下降法造成的时间成本非常高,难以规模化。
随机梯度下降法,是从样本集中抽出一小部分数据(随机抽出),用来做梯度下降法。这个虽然会有一点误差,但我们每次只走一小步。他速度更快,并且更容易规模化。
ADAGRAD是GSD的改进版,他自动选择了动量和学习率衰减。使用ADAGRAD通常会使学习过程对超参数不那么敏感。