• 17标签数据集重新训练过程中遇到的问题及解决方案


    问题一:训练好的模型在使用test.py测试时报错:Failed to get convolution algorithm. This is probably because cuDNN failed to initialize

    原因分析:根据提示,误认为时cuDNN的问题,各种尝试均失败,最后在网上看到以为大神@史丹利复合田 说可能时GPU内存暂用不足的问题。 nvidia-smi 检测显卡占用后发现并没有问题,估计是内存分配的问题。

    解决方案:于是按照大神的建议,给test.py脚本添加了一段让GPU按需分配的代码,亲测问题解决。代码如下

    from tensorflow.compat.v1 import ConfigProto
    from tensorflow.compat.v1 import InteractiveSession
    
    config = ConfigProto()
    config.gpu_options.allow_growth = True
    session = InteractiveSession(config=config)

    问题二: 使用Ctrl·+Z强制停止训练后,再次训练会报错,提示

    Resource exhausted: OOM when allocating tensor of shape.......

    原因分析:

    显存不足,查看显卡占用情况,发现python仍在占用。

    解决方案:

    sudo killall -9 python

    不断补充ing

  • 相关阅读:
    重排列
    最多分成多少块
    后面第一个大于
    走格子
    硬币游戏
    还是01串
    戴德兰
    个人所得税
    最长高地
    执行Commit时Oracle做哪些工作
  • 原文地址:https://www.cnblogs.com/vincent212212/p/13748568.html
Copyright © 2020-2023  润新知