• Pytorch 中的 zero_grad 使用方法


    Pytorch 为什么每一轮batch需要设置optimizer.zero_grad

    根据pytorch中的backward()函数的计算,当网络参量进行反馈时,梯度是被积累的而不是被替换掉;但是在每一个batch时毫无疑问并不需要将两个batch的梯度混合起来累积,因此这里就需要每个batch设置一遍zero_grad 了。

    其实这里还可以补充的一点是,如果不是每一个batch就清除掉原有的梯度,而是比如说两个batch再清除掉梯度,这是一种变相提高batch_size的方法,对于计算机硬件不行,但是batch_size可能需要设高的领域比较适合,比如目标检测模型的训练。

    关于这一点可以参考:https://discuss.pytorch.org/t/why-do-we-need-to-set-the-gradients-manually-to-zero-in-pytorch/4903/3

    关于backward()的计算可以参考:https://discuss.pytorch.org/t/how-to-use-the-backward-functions-for-multiple-losses/1826/5
    ————————————————
    版权声明:本文为CSDN博主「xiaoxifei」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
    原文链接:https://blog.csdn.net/xiaoxifei/article/details/83474724




    如果这篇文章帮助到了你,你可以请作者喝一杯咖啡

  • 相关阅读:
    POJ 1321 棋盘问题 (DFS)
    POJ 2676 Suduku
    Codeforce Segment Occurrences——string中substr的应用
    POJ 2492
    HDU 3088
    POJ 2992
    STL的sort排序
    mongoimport csv文件
    远程计算机或设备将不接受连接,IE无法上网
    注册MongoDB服务
  • 原文地址:https://www.cnblogs.com/sddai/p/14504038.html
Copyright © 2020-2023  润新知