一、
登录节点 swarm.whu.edu.cn (202.114.96.180)
文件传输 202.114.96.177
module avail
module load anaconda
module unload anaconda
squeue
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch
scancel JobID
accountInfos supervisor
二、myjob.sbatch
myjob.sbatch:
#!/bin/bash
#SBATCH --account=supervisor
#SBATCH --partition=gpu
#SBATCH --nodes=1
#SBATCH --cpus-per-task=3
#SBATCH --gres=gpu:2
#SBATCH --time=72:00:00
module load anaconda
source ~/.bashrc
conda activate <env_name>
cd $SLURM_SUBMIT_DIR
python train.py
dos2unix myjob.sbatch
三、squeue
squeue
显示的信息包括以下内容
-
JobID
,作业编号 -
PARTITION
,作业在哪个分区上运行 -
NAME
,作业名称,默认是作业脚本的名字 -
USER
,作业的所有者 -
ST
,作业当前状态,详见 Job State Codes,常见的有CG
作业正在完成F
作业失败PD
作业正在等待分配资源R
作业正在运行
-
TIME
,作业已运行时间 -
NODES
,作业占用的计算节点数 -
NODELIST
,作业占用的计算节点名 -
(REASON)
,作业正在等待执行的原因,详见 Job Reason Codes,常见的有Asso<Resource>Limit
作业申请的资源超过允许的最大数量Priority
作业正在排队等待
显示的状态信息里包括了作业程序运行所在的计算节点名,使用 ssh 计算节点名
可以登录到计算节点。在计算节点上,使用 top
命令可以查看程序使用 CPU 的状况,如果是 GPU 程序,使用 nvidia-smi
命令可以查看程序使用 GPU 的状况。
四、流程
1.
申请账号,关联主账号,登陆,改密码
2.
module load anaconda
conda create -n <env_name> python=3.7
重启shell
conda activate <env_name>
3.配置用户 conda 目录
http://docs.hpc.whu.edu.cn/files/whuhpcdocs.wiki/installation/python.html
4.换镜像源
https://www.cnblogs.com/holaworld/p/14565431.html
5.安装软件包
装pytorch:conda install pytorch==1.8.0 torchvision==0.9.0 torchaudio==0.8.0 cudatoolkit=10.2 -c pytorch
批量导出:conda list -e > requirements.txt
| pip freeze > requirements.txt
批量安装:conda install --yes --file requirements.txt
| pip install -r requirements.txt
| conda create --name <env_name> --file requirements.txt
6.运行程序
srun -A supervisor --cpus-per-task=2 --gres=gpu:1 -p gpu -u python train.py
sbatch myjob.sbatch
http://hpc.whu.edu.cn/index.htm
http://docs.hpc.whu.edu.cn/
http://hpc.whu.edu.cn/info/1008/1057.htm
https://blog.csdn.net/qq_36227457/article/details/105545309
https://blog.csdn.net/carry_hjr/article/details/108501644