• machine learning (5)---learning rate


    • degugging:make sure gradient descent is working correctly
    1. cost function(J(θ)) of Number of iteration :cost function随着迭代次数增加的变化函数
    2. 运行错误的图象是什么样子的:cost function(J(θ)) of Number of iteration随着迭代次数增加而上升(如以下两种图像的情况),应使用较小的learning rate
    3.  运行正确的图象是什么样子的:cost function(J(θ)) of Number of iteration应该是递减的并且随着迭代次数增加它趋于一条平缓的曲线(即收敛于一个固定的值)

           

    • how to choose learning rate(∂)
      1. 若learning rate太小: 收敛速度会很慢
      2. 若learning rate太大: gradient descent不会收敛,会出现随着迭代次数的增加,cost function反而变大的情况,这时我们要选择较小的learning rate去尝试。
      3. 可供选择的一些learning rate值:  0.3, 0.1, 0.03, 0.01 and so on(3倍)
      4. 在进行gradient drscent时,我们会尝试一些不同的learning rate,然后绘制出不同的ost function(J(θ)) of Number of iteration曲线,然后选择一个使cost function 快速下降的learning rate.
      5. 如何选择最佳的learning rate  

                      尝试这些不同的learning rate找到一个最大的learning rate(若再大则不会收敛)或者比最大稍小一点的learning rate

  • 相关阅读:
    Python学习
    我的计算机网络复习笔记(第一章)
    理解DES算法
    彻底理解RSA加密算法
    扩展欧几里得算法求模的乘法逆元
    python的deque(双向)队列详解
    对于暴力枚举的一些优化方法的题解
    python中的多(liu)元(mang)交换 ,赋值
    python定义函数后跟->的意义
    直接暴力做分糖问题
  • 原文地址:https://www.cnblogs.com/yan2015/p/4525937.html
Copyright © 2020-2023  润新知