• 如何解决pytorch 编译时CUDA版本与运行时CUDA版本不对应


    转载请注明:

    仰望高端玩家的小清新 http://www.cnblogs.com/luruiyuan/

    如何解决pytorch 编译时CUDA版本与运行时CUDA版本不对应

    如果pytorch的编译时CUDA版本和运行时CUDA版本不一致时,由于不同的 nvcc 编译器会生成不同的动态函数代码,由此会导致自己编写的 CUDA 函数无法正确运行。

    常见的错误有:

    undefined symbol: __cudaRegisterFatBinaryEnd (运行时为CUDA10.1,编译时CUDA版本<10.1)

    undefined symbol: __cudaPopCallConfiguration (运行时为CUDA10.0,编译时CUDA<10.0)

    由此思路有2个:

    1. 重新编译 pytorch 使得编译时CUDA能够与运行时CUDA保持一致

    2. 重新安装CUDA使得其与pytorch编译的版本一致。

    服务器涉及多用户,因此采用了方案一避免引入其他问题:

    具体的细节可以见我再github的讨论:issue

    重新编译安装pytorch的脚本整理如下:

    pip uninstall pytorch #  conda uninstall pytorch, if you use conda
    nvcc -V # 查看 nvcc 版本
    
    sudo rm -f /usr/local/cuda # optional, only if you already have this symlink
    sudo ln -s /usr/local/cuda-10.0 /usr/local/cuda
    
    # 将如下路径加入环境变量,如~/.bashrc
    export CUDA_HOME=/usr/local/cuda
    export PATH="/usr/local/cuda/bin:$PATH"
    export LD_LIBRARY_PATH="$LD_LIBRARY_PATH:/usr/local/cuda/lib64"
    export LIBRARY_PATH="$LIBRARY_PATH:/usr/local/cuda/lib64"
    
    source ~/.bashrc # 确保路径被加载
    
    # 编译并安装 pytorch
    conda install numpy pyyaml mkl=2019.3 mkl-include setuptools cmake cffi typing
    conda install -c pytorch magma-cuda100 # optional step
    # clone the pytorch source code
    git clone --recursive https://github.com/pytorch/pytorch
    cd pytorch
    make clean # make clean is needed in my case
    export CMAKE_PREFIX_PATH=${CONDA_PREFIX:-"$(dirname $(which conda))/../"}
    sudo python setup.py install # sudo is needed in my case.

    经过这些步骤后,问题终于得到解决。

  • 相关阅读:
    Unable to locate .nugetNuGet.exe 问题解决办法之一
    css用法大全
    RDLC报表系列二
    RDLC报表系列一
    自己收集逻辑面试题及解法-不断补充
    list双向链表容器(常用的方法总结)
    multimap多重映照容器(常用的方法总结)
    stack堆栈容器、queue队列容器和priority_queue优先队列容器(常用的方法对比与总结)
    map映照容器(常用的使用方法总结)
    multiset多重集合容器(常用的使用方法总结)
  • 原文地址:https://www.cnblogs.com/luruiyuan/p/10720581.html
Copyright © 2020-2023  润新知