• USTC服务器使用笔记


    本机系统:Windows 10 (我真是坚持走在用Windows写python的路上不回头。。。)

    使用软件:putty(ssh连接) 和 WinSCP(文件管理)

    1.登陆

    putty软件输入IP地址和端口号, 登陆gwork

    2.环境

    /ghome下的有一userid命名的文件夹,账号创建即生成,限额20G, 代码及script文件放在这里

    /gdata下可以自从创建userid命名的文件夹,限额300G,用于储存job生成的结果。

    /gpubg公共数据区

    3.使用

    调试:从gwork主机sshG101,断开ssh连接的方法,logout

    startdocker -u "-it" -c /bin/bash bit:5000/deepo
    bit:5000/deepo是一个集中了几乎所有深度学习框架的一个docker 镜像,使用上述命令将进入docker container内部,相当于一个虚拟机,
     你在内部对系统所做的任何操作都将在系统退出后丢失,但对用户根目录下(/ghome/<username>)的文件操作将不会丢失。
     此命令没有用-P命令挂载用户代码和配置目录,系统默认挂载了整个用户根目录,也没有使用-D挂载数据目录,用户可以根据需要挂载。

    退出docker的命令:

    exit

    退出G101后,查看镜像的命令

    sudo docker images

    如果没有正确得退出docker(如直接关闭terminal),需要利用命令查看docker id,并且关闭

    sudo docker ps
    sudo docker stop CONTAINER_ID

    调试成功后,编写pbs文件提交,注意windows系统下的换行符需要改成unix模式(可以使用notepad++编辑器)。

    pbs中的命令行如下:

    startdocker -D <mydatapath> -P <my-proc-config-path> -s <my-script-file> bit:5000/deepo
    """
    -s 参数后的my-script-file 可以是shell脚本或python脚本,但都需要在第一行加解释器,如 shell脚本需要加: #!/bin/bash python脚本需要加: #!/usr/local/bin/bash
    """
    下面是一个pbs文件示例:
    #PBS -N myjob1
    #PBS -o /home/liulm/myjob1.out
    #PBS -e /home/liulm/myjob1.err
    #PBS -l nodes=1:gpus=1:S
    #PBS -r y
    cd $PBS_O_WORKDIR
    echo Time is 'date'
    echo Directory is $PWD
    echo This job runs on the following nodes:
    cat $PBS_NODELIFE
    cat $PBS_GPULIFE
    ./myproc
    """

    -N: job 名

    -o: 输出文件路径

    -e: 报错文件输出路径

    -l: 集群资源分配, 节点数和gpu数(通常一就可以满足要求)

    -r:  任务操作类型, -r表示job立即执行


    """

    对job的操作指令集合:

    qsub myjob1.pbs
    #提交作业
    qstat -n
    #查看作业
    qhold job_id
    #挂起作业,被挂起的job状态显示为H
    qrls job_id
    #取消挂起作业,job重新运行
    pbsnodes
    #查看节点
    pbsnodes -l free
    #查看空闲节点

     4.自定义docker镜像文件(相当于安装库?)

    emmm,步骤比较复杂。

    而自己python程序中比较小的packeage可以使用如下方法:

    不需要构建镜像。以numpy为例:
    1. 下载numpy的源码(一般能从个人PC上拷贝),放入服务器上的某个目录,比如/gdata/xxx/pylib
    2. 挂载目录,-v /gdata/xxx/pylib:/data/pylib
    3. 将挂载后的目录加入python import的搜索路径,两个方法
       a. 指定容器的PYTHONPATH, 在startdocker的-u里面加入-e PYTHONPATH=/data/pylib,此时/data/pylib的
          优先级可能次于系统自带路径(没测过),import numpy 会导入系统的numpy
       b. 在程序的一开始加入下面两行代码
          import sys
          sys.path.insert(1, '/data/pylib')
          1表示/data/pylib的优先级仅次于程序所在目录
          此时/data/pylib的优先级高于系统自带路径,import numpy 会导入/data/pylib的numpy

    5. DGX1服务器使用

    slurm构成的小集群, 操作仍在gwork 上,共享文件系统

    script格式如下:

    my.slurm
    
    #!/bin/bash
    #SBATCH --job-name=myjob1
    #SBATCH -gres=gpu:4
    #SBATCH --output=myjob.out
    echo "Submitted from $SLURM_SUBMIT_DIR" on node "$SLURM_SUBMIT_HOST"
    echo "Running on node "$SLURM _JOB_NODELIST
    echo "Allocate Gpu Units:" $CUDA_VISABLE_DEVICES
    ##program here##
    startdocker {-c <mycd>|-s <myscript>} nvdl.githost.io:4678/dgx/cuda:9.0-cudnn7-devel-ubuntu16.04

    操作命令:

    sbatch <myscript>
    #提交文件
    squeue
    #查看队列情况
    scancel <jobid>
    #取消job
  • 相关阅读:
    基于Dapper的开源Lambda扩展,且支持分库分表自动生成实体基础
    用SignalR和Layui搭建自己的web聊天网站
    MySQL查看、修改字符集及Collation
    ASP.NET MVC中有四种过滤器类型
    一个简单的大转盘抽奖程序(附.NetCore Demo源码)
    网站统计中的访问信息收集的前端实现
    微信小程序实现按首字母检索城市列表
    微信小程序异步处理
    微信小程序下拉框
    node.js上传文件
  • 原文地址:https://www.cnblogs.com/fassy/p/8818883.html
Copyright © 2020-2023  润新知