FPGA机器学习之stanford机器学习第二堂2

stochastic gradient descent

随机梯度下降法：因为上一种梯度下降法，没更新一次theta的话，就需要将所有的样本从新计算，计算量巨大。所以需要有一个新的方法来减少计算量。

这个是随机梯度下降法的公式。上一个梯度下降是全部走了一遍后，在更新。这里的i只走了1个。就是利用了当前的那组进行更新。这样的话，theta的更新速度就会很快。而且它也不会精确到全局最小值。

batch gradient descent的话是蓝色的线。stochastic gradient descent红色的线表示。

如果中间点就是最佳匹配值，在不断迭代的过程中，就会向这个点收敛。而蓝色的是向目标精准的收敛。而红色的线也会向中间收敛，可是过程不是很精准，而且还不一定能收敛到全局最小值。但是有一个最大的优点就是减少了计算量。

下面讲到一个矩阵的导数，叫梯度也行。

公式这样表示：

前端的就是求导结果后面的是m*n维度的矩阵，对每一个A求偏导数。

这个是一个n*n的矩阵，对角线求和的过程。

会得到以下结论。我们直接拿结论好了。

这里的a是一个实数。

这里是最后结果结论。

这些公式是为了能完整快速最小化的推导而引进的。这样我们就可以不需要用那种迭代的运算算法了。

现在假设一个样本向量X矩阵这里的横杠是什么我还不是很明白。我的感觉是，讲义上写是m*n的向量，他自写了一列，那横杠就是省略（空）的意思。

定义了一个y。就会有，

这个结论还是比较好理解的，不过我怎么感觉好像等号两边应该换个位置才对呀。

其实我们要求的是j（thera），梯度下降法最小值嘛。所以应该写到等号左边。

接下来就是一连串的数据推导：

我就不仔细的研究怎么过来的了，我直接拿结论好了。你们就好好看看过程吧。

这个就是最后求的的theta。

第二堂就全部结束

我能力有限，但我努力的学习，理解。希望我的理解，对你们有所帮助。

相关阅读:
二进制安装kubernetes（二） kube-apiserver组件安装
二进制安装kubernetes（一）环境准备及etcd组件安装及etcd管理软件etcdkeeper安装
docker 支持systemctl start|stop|status等操作
nginx ssl通讯优化思路
记录一次mongodb因网络问题导致shard节点异常
容器技术
前端面试题2019年京东工程师面试题及答案解析
前端面试题2019年网易工程师面试题及答案解析
前端面试题2019年小米工程师面试题及答案解析
PHP面试题2019年新浪工程师面试题及答案解析

原文地址：https://www.cnblogs.com/maohuawang/p/3807210.html