• FPGA机器学习之stanford机器学习第二堂2


                       stochastic  gradient  descent

                 随机梯度下降法:因为上一种梯度下降法,没更新一次theta的话,就需要将所有的样本从新计算,计算量巨大。所以需要有一个新的方法来减少计算量。  

                  

                 这个是随机梯度下降法的公式。上一个梯度下降是全部走了一遍后,在更新。这里的i只走了1个。就是利用了当前的那组进行更新。这样的话,theta的更新速度就会很快。而且它也不会精确到全局最小值。

                 batch gradient descent的话是蓝色的线。stochastic  gradient  descent红色的线表示。

                 

                 如果中间点就是最佳匹配值,在不断迭代的过程中,就会向这个点收敛。而蓝色的是向目标精准的收敛。而红色的线也会向中间收敛,可是过程不是很精准,而且还不一定能收敛到全局最小值。但是有一个最大的优点就是减少了计算量。

                下面讲到一个矩阵的导数,叫梯度也行。

                公式这样表示:

                前端的就是求导结果    后面的是m*n维度的矩阵,对每一个A求偏导数。

                 这个是一个n*n的矩阵,对角线求和的过程。

    会得到以下结论。我们直接拿结论好了。

    这里的a是一个实数。

    这里是最后结果结论。

        这些公式是为了能完整快速最小化的推导而引进的。这样我们就可以不需要用那种迭代的运算算法了。

        现在假设一个样本向量X矩阵这里的横杠是什么我还不是很明白。我的感觉是,讲义上写是m*n的向量,他自写了一列,那横杠就是省略(空)的意思

          定义了一个y。就会有,


         这个结论还是比较好理解的,不过我怎么感觉好像等号两边应该换个位置才对呀。

    其实我们要求的是j(thera),梯度下降法最小值嘛。所以应该写到等号左边。

    接下来就是一连串的数据推导:

    我就不仔细的研究怎么过来的了,我直接拿结论好了。你们就好好看看过程吧。

    这个就是最后求的的theta。


    第二堂就全部结束


    微笑我能力有限,但我努力的学习,理解。希望我的理解,对你们有所帮助





                 

  • 相关阅读:
    二进制安装kubernetes(二) kube-apiserver组件安装
    二进制安装kubernetes(一) 环境准备及etcd组件安装及etcd管理软件etcdkeeper安装
    docker 支持systemctl start|stop|status等操作
    nginx ssl通讯优化思路
    记录一次mongodb因网络问题导致shard节点异常
    容器技术
    前端面试题2019年京东工程师面试题及答案解析
    前端面试题2019年网易工程师面试题及答案解析
    前端面试题2019年小米工程师面试题及答案解析
    PHP面试题2019年新浪工程师面试题及答案解析
  • 原文地址:https://www.cnblogs.com/maohuawang/p/3807210.html
Copyright © 2020-2023  润新知