最近公司需要做深度学习,无奈自己笔记本是什么m2000m,2g显存,查了下,和gtx970差不多水准,这显卡,拿来跑稍微大一点的模型都会爆显存
经过一番查询,发现谷歌提供免费的gpu供深度学习使用,免费用户最长12小时连续运行,超过就会回收
进过一番操作,进入了谷歌的colab,首先看下配置信息,给配了 tesla k80,11g的显存
Tue Nov 16 08:23:37 2021 +-----------------------------------------------------------------------------+ | NVIDIA-SMI 495.44 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+ | GPU Name Persistence-M| Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap| Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |===============================+======================+======================| | 0 Tesla K80 Off | 00000000:00:04.0 Off | 0 | | N/A 71C P8 35W / 149W | 0MiB / 11441MiB | 0% Default | | | | N/A | +-------------------------------+----------------------+----------------------+ +-----------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=============================================================================| | No running processes found | +-----------------------------------------------------------------------------+
系统是ubuntu 18.04,内存12.69g 硬盘78g,这配置可以说非常豪华,而且还是免费的,这里给谷歌点个赞
colab使用的是python的Jupyter Notebook,使用起来非常好上手,然后可以使用!+shell指令执行命令,而且直接是root权限
(这里批评下华为的modelarts 里面的codelab,执行个shell命令还要问我root密码,我去哪里找root密码)
colab数据都是暂存,一旦清理,数据都没了,所以需要将数据保存到谷歌云盘,谷歌免费提供了15g的空间,这点够跑跑模型验证了
点击如下按钮即可装载谷歌云盘,而且后续开通新的虚拟机也会自动装载,非常方便,装载好后文件传输就方便了
进过检测,系统安装的cuda版本是11.0, cudnn版本是8.0.5, 我这次需要安装tensorflow2.6+,按照对照表,需要cuda版本11.2+cudnn版本8.1.0
所以需要升级cuda版本和cudnn版本,升级cuda版本很简单,执行如下2个命令即可,这里对应系统ubuntu18.04,其他版本对照nvidia官网
!wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run !sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override
升级cudnn就比较麻烦了,因为下载cudnn需要注册,自行注册后下载cudnn对应的文件,然后上传到谷歌云盘
然后执行如下命令即可升级cudnn(路径自行修改)
!sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb" !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb" !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"
至此,cudnn和cuda都安装好了,接下去安装tensorflow就能跑起来了
!cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/ !cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/ !python train.py
总结来说,谷歌的colab其实就是一台ubuntu18.04的服务器,给你root权限,你可以做你想做的任何事情
相对比其他平台来说,就没那么大自由度了,百度的ai studio,只能用paddle框架,华为的codelab,没有root权限,各种不支持
目前已经用colab跑通了模型验证,现在就是正在增加数据跑训练,提升识别率
PS,经过实际测试,可以完全将数据放到谷歌云盘中运行,这样数据都在,不会因为colab回收导致数据丢失,无法进行长时间训练