• google colab tensorflow2.6.2gpu环境部署


    最近公司需要做深度学习,无奈自己笔记本是什么m2000m,2g显存,查了下,和gtx970差不多水准,这显卡,拿来跑稍微大一点的模型都会爆显存

    经过一番查询,发现谷歌提供免费的gpu供深度学习使用,免费用户最长12小时连续运行,超过就会回收

    进过一番操作,进入了谷歌的colab,首先看下配置信息,给配了 tesla k80,11g的显存

    Tue Nov 16 08:23:37 2021       
    +-----------------------------------------------------------------------------+
    | NVIDIA-SMI 495.44       Driver Version: 460.32.03    CUDA Version: 11.2     |
    |-------------------------------+----------------------+----------------------+
    | GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
    | Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
    |                               |                      |               MIG M. |
    |===============================+======================+======================|
    |   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
    | N/A   71C    P8    35W / 149W |      0MiB / 11441MiB |      0%      Default |
    |                               |                      |                  N/A |
    +-------------------------------+----------------------+----------------------+
                                                                                   
    +-----------------------------------------------------------------------------+
    | Processes:                                                                  |
    |  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
    |        ID   ID                                                   Usage      |
    |=============================================================================|
    |  No running processes found                                                 |
    +-----------------------------------------------------------------------------+
    

     系统是ubuntu 18.04,内存12.69g 硬盘78g,这配置可以说非常豪华,而且还是免费的,这里给谷歌点个赞

    colab使用的是python的Jupyter Notebook,使用起来非常好上手,然后可以使用!+shell指令执行命令,而且直接是root权限

    (这里批评下华为的modelarts 里面的codelab,执行个shell命令还要问我root密码,我去哪里找root密码)

    colab数据都是暂存,一旦清理,数据都没了,所以需要将数据保存到谷歌云盘,谷歌免费提供了15g的空间,这点够跑跑模型验证了

    点击如下按钮即可装载谷歌云盘,而且后续开通新的虚拟机也会自动装载,非常方便,装载好后文件传输就方便了

    进过检测,系统安装的cuda版本是11.0, cudnn版本是8.0.5, 我这次需要安装tensorflow2.6+,按照对照表,需要cuda版本11.2+cudnn版本8.1.0

     所以需要升级cuda版本和cudnn版本,升级cuda版本很简单,执行如下2个命令即可,这里对应系统ubuntu18.04,其他版本对照nvidia官网

    !wget https://developer.download.nvidia.com/compute/cuda/11.2.0/local_installers/cuda_11.2.0_460.27.04_linux.run
    !sudo sh cuda_11.2.0_460.27.04_linux.run --toolkit --silent --override
    

     升级cudnn就比较麻烦了,因为下载cudnn需要注册,自行注册后下载cudnn对应的文件,然后上传到谷歌云盘

     然后执行如下命令即可升级cudnn(路径自行修改)

    !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8_8.1.0.77-1+cuda11.2_amd64.deb"
    !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-dev_8.1.0.77-1+cuda11.2_amd64.deb"
    !sudo dpkg -i "/content/drive/MyDrive/Colab Notebooks/cudnn8.1.0/libcudnn8-samples_8.1.0.77-1+cuda11.2_amd64.deb"

    至此,cudnn和cuda都安装好了,接下去安装tensorflow就能跑起来了

    !cp "/content/drive/MyDrive/Colab Notebooks/test/train.py" /content/
    !cp "/content/drive/MyDrive/Colab Notebooks/test/test.npz" /content/
    !python train.py

     总结来说,谷歌的colab其实就是一台ubuntu18.04的服务器,给你root权限,你可以做你想做的任何事情

    相对比其他平台来说,就没那么大自由度了,百度的ai studio,只能用paddle框架,华为的codelab,没有root权限,各种不支持

    目前已经用colab跑通了模型验证,现在就是正在增加数据跑训练,提升识别率

    PS,经过实际测试,可以完全将数据放到谷歌云盘中运行,这样数据都在,不会因为colab回收导致数据丢失,无法进行长时间训练

  • 相关阅读:
    Hit Event 击中碰撞
    基于ReentrantLock通知唤醒的生产消费模式
    spring 源码构建
    读写分离、分库、分表
    python 反射的使用
    基础算法
    git 命令使用
    java设计模式应用
    linux 中python的使用
    linux命令
  • 原文地址:https://www.cnblogs.com/darkspr/p/15565812.html
Copyright © 2020-2023  润新知