前一段时间为毕设编译tensorflow2.1和tensorRT6,当时为了赶进度,把实验室工作电脑的cuda环境弄乱了,这里抽个空重新整理一下。
tensorflow2.1编译需要cuda10.1版本(2.0则对应10.0,另外2.1确切的说应该是10.1.243版本,但是我错安装为10.1.168也没报错),tensorRT6用的是10.0版本(存疑,记不清了)。今天检查发现电脑中cuda是10.0的,之前编译的tf2.1新gpu节点报了未定义符号错误,这个错一般就是编译版本和运行版本的库不一致导致的(我用docker环境编译的,实机运行的),所以特此把cuda更新一下。
nvidia官网一般推荐用apt来更新,实际安装时老师有问题,如果尝试且失败了的话每次apt update都会有错误提示,很碍眼,需要进入/etc/apt/sources.list.d中,删掉无效链接就行:
个人推荐runfile安装,因为内网的关系,在线安装会有各种问题(学校网络不稳,如果是it公司问题应该不大),runfile下载好文件直接运行就行,注意一开始会让你选安装选项,把driver去掉就行:
安装好之后,其实屏幕会提示你添加路径和卸载办法,将cuda目录和cuda下面的动态链接库目录添加到.bashrc就行:
export CUDA_HOME=/usr/local/cuda
export PATH=$PATH:$CUDA_HOME/bin
export LD_LIBRARY_PATH=/usr/local/cuda/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
卸载脚本在cuda/bin/下,/usr/local/cuda/bin/cuda-uninstaller文件,好像是sh运行即可(关了提示才想起来记一下)。现在版本的cuda安装真的很方便,只要不在网络坑的请胯下死磕apt安装方法……