这一节主要讲了一些适用于大规模机器学习的算法及策略,并比较了梯度下降、随机梯度下降和小批量梯度下降的优劣。目前来说,大规模机器学习中用的最多的还是小批量梯度下降,毕竟它在执行效率和性能之间达到了一个平衡。当然,对于小批量梯度下降来说,如何选择合适的批量大小又是一个值得深思的问题。
梯度下降
[egin{aligned}
& ext{Repeat}{\
&quadquadTheta_{t+1} := Theta_t - alphafrac{1}{n}sum_{i=1}^n
abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)}
ight)\
&}
end{aligned}
]
随机梯度下降
[egin{aligned}
& ext{Repeat}{\
&quadquad ext{Shuffer training dataset randomly}\
&quadquad ext{Select } extbf{one} ext{ example from training dataset}\
&quadquadTheta_{t+1} := Theta_t - alpha
abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)}
ight)\
&}
end{aligned}]
小批量梯度下降
[egin{aligned}
& ext{Repeat}{\
&quadquad ext{Shuffer training data randomly}\
&quadquad ext{Select }b ext{ examples from training dataset}\
&quadquadTheta_{t+1} := Theta_t - alphafrac{1}{b}sum_{i=1}^b
abla ext{cost}left(f(x^{(i)};Theta_t),y^{(i)}
ight)\
&}
end{aligned}]
后面介绍了分布式机器学习中的Map-Reduce方法,其实现阶段(2020年)常用的方法还是数据并行和模型并行这两种。主要使用的架构包括参数服务器以及一些环状架构,这里就不作过多介绍了。