• torch.optim.Adam Learner


    class torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)
    参数:
    params (iterable) – 待优化参数的iterable或者是定义了参数组的dict
    lr (float, 可选) – 学习率(默认:1e-3)
    betas (Tuple[float, float], 可选) – 用于计算梯度以及梯度平方的运行平均值的系数(默认:0.9,0.999)
    eps (float, 可选) – 为了增加数值计算的稳定性而加到分母里的项(默认:1e-8)
    weight_decay (float, 可选) – 权重衰减(L2惩罚)(默认: 0)

    个人理解:
    lr:同样也称为学习率或步长因子,它控制了权重的更新比率(如 0.001)。较大的值(如 0.3)在学习率更新前会有更快的初始学习,而较小的值(如 1.0E-5)会令训练收敛到更好的性能。

    betas = (beta1,beta2)

    beta1:一阶矩估计的指数衰减率(如 0.9)。

    beta2:二阶矩估计的指数衰减率(如 0.999)。该超参数在稀疏梯度(如在 NLP 或计算机视觉任务中)中应该设置为接近 1 的数。

    eps:epsilon:该参数是非常小的数,其为了防止在实现中除以零(如 10E-8)。

  • 相关阅读:
    mysql网文收录
    centos7编译安装memcached
    计算机网络网文
    操作系统网文
    redis网文
    【Leetcode】746. Min Cost Climbing Stairs
    【Leetcode】198. House Robber
    【Leetcode】121. Best Time to Buy and Sell Stock
    【Leetcode】1. Two Sum
    函数的参数 2018-3-27
  • 原文地址:https://www.cnblogs.com/BlairGrowing/p/16080425.html
Copyright © 2020-2023  润新知