[D-90] (QOSMaxMemoryPerUser)
[D-90] (QOSMaxMemoryPerUser)
무슨 일 때문인지 sbatch 가 전혀 안돌고 있다?
보통이라면 sbatch 작업 실행후 job 이 실행되고 끝날때 이메일이 오는데, 하나도 못받음.. 왜?
그래서 슬럼 베이직 인프라좀 알아보려고 한다.
Slrum Basic Infra
sbatch
Example Sbatch file:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#!/bin/bash
#SBATCH --job-name=starcoder
#SBATCH --output=/storage/athene/work/kim/holi/output.txt
#SBATCH --error=/storage/athene/work/kim/holi/error.txt
#SBATCH --mail-user=yoojin.kim@stud.tu-darmstadt.de
#SBATCH --mail-type=ALL
#SBATCH --gres=gpu:1
#SBATCH --constraint="gpu_mem:80gb"
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=16
#SBATCH --mem=128GB
#SBATCH --partition=gpu-athene
#SBATCH --account=athene-student
#SBATCH --qos=gpu-small
##SBATCH --nodelist rubeus
export PYTHONPATH=/storage/athene/work/kim:$PYTHONPATH
# load environment
module load cuda/12.4
source /storage/athene/work/kim/miniconda3/etc/profile.d/conda.sh
conda activate sssm
export CUDA_HOME=/nfs/cuda/cuda-12.4/
# Printing out some info.
echo "Submitting job with sbatch from directory: ${SLURM_SUBMIT_DIR}"
echo "Home directory: ${HOME}"
echo "Working directory: $PWD"
echo "Current node: ${SLURM_NODELIST}"
# For debugging purposes
python --version
pythom -m torch.utils.collect_env
nvcc -V
# Run the script:
python -u train.py
관련 동영상을 보다가 왜 sbatch 가 안돌아가는지 알게 되었다
squeue
$ squeue –me
1
2
3
4
5
6
7
8
9
[kim@slurm-login kim]$ squeue --me
JOBID PARTITION NAME USER ST TIME NODES NODELIST(REASON)
318046 gpu-athen starcode kim PD 0:00 1 (QOSMaxMemoryPerUser)
318050 gpu-athen starcode kim PD 0:00 1 (QOSMaxMemoryPerUser)
318065 gpu-athen starcode kim PD 0:00 1 (QOSMaxMemoryPerUser)
318066 gpu-athen starcode kim PD 0:00 1 (QOSMaxMemoryPerUser)
318067 gpu-athen starcode kim PD 0:00 1 (QOSMaxMemoryPerUser)
317587 gpu-athen starcode kim R 1-00:01:03 1 severus
317585 gpu-athen starcode kim R 1-00:05:09 1 remus
QOSMaxMemoryPerUser 때문에 (뭔지 아직 모름) 안돌았음.
>> 이거 ! 내가 이미 severus 라는 노드랑 remus 노드를 사용하고 있기에 ( 한사람당 맥시멈 2 개인가봄..몰랐음 ) 실행이 안되고 있었던 것임.
scancel
$ scancel 317585
JOBID 에 따라서 삭제하고 싶은 잡을 삭제할 수 있음. 죄다 삭제해줬더니 돌아갔음!~~~
scancel 로 큐에 걸린 작업들을 삭제할 수 있고. 작업 정보를 조금 볼 수 있음.
근데 여전히 stu installation 은 난관인 상황..^^;;
====quick note====
‘requirements.txt’ » pip install -r requirements.txt
$ module avail
$ module load {anaconda3?} $ source activate {env name!}
를 해줘야한다는데 이해가 안간다
This post is licensed under CC BY 4.0 by the author.