Post

[D-90] (QOSMaxMemoryPerUser)

[D-90] (QOSMaxMemoryPerUser)

무슨 일 때문인지 sbatch 가 전혀 안돌고 있다?
보통이라면 sbatch 작업 실행후 job 이 실행되고 끝날때 이메일이 오는데, 하나도 못받음.. 왜?

그래서 슬럼 베이직 인프라좀 알아보려고 한다.

Slrum Basic Infra

sbatch

Example Sbatch file:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#!/bin/bash
#SBATCH --job-name=starcoder
#SBATCH --output=/storage/athene/work/kim/holi/output.txt
#SBATCH --error=/storage/athene/work/kim/holi/error.txt
#SBATCH --mail-user=yoojin.kim@stud.tu-darmstadt.de
#SBATCH --mail-type=ALL
#SBATCH --gres=gpu:1
#SBATCH --constraint="gpu_mem:80gb"
#SBATCH --ntasks=1
#SBATCH --cpus-per-task=16
#SBATCH --mem=128GB
#SBATCH --partition=gpu-athene
#SBATCH --account=athene-student
#SBATCH --qos=gpu-small
##SBATCH --nodelist rubeus

export PYTHONPATH=/storage/athene/work/kim:$PYTHONPATH  
# load environment
module load cuda/12.4
source /storage/athene/work/kim/miniconda3/etc/profile.d/conda.sh
conda activate sssm
export CUDA_HOME=/nfs/cuda/cuda-12.4/

# Printing out some info.
echo "Submitting job with sbatch from directory: ${SLURM_SUBMIT_DIR}"
echo "Home directory: ${HOME}"
echo "Working directory: $PWD"
echo "Current node: ${SLURM_NODELIST}"

# For debugging purposes
python --version
pythom -m torch.utils.collect_env
nvcc -V

# Run the script:
python -u train.py

관련 동영상을 보다가 왜 sbatch 가 안돌아가는지 알게 되었다

squeue

$ squeue –me

1
2
3
4
5
6
7
8
9
 [kim@slurm-login kim]$ squeue --me
             JOBID PARTITION     NAME     USER ST       TIME  NODES NODELIST(REASON)
            318046 gpu-athen starcode      kim PD       0:00      1 (QOSMaxMemoryPerUser)
            318050 gpu-athen starcode      kim PD       0:00      1 (QOSMaxMemoryPerUser)
            318065 gpu-athen starcode      kim PD       0:00      1 (QOSMaxMemoryPerUser)
            318066 gpu-athen starcode      kim PD       0:00      1 (QOSMaxMemoryPerUser)
            318067 gpu-athen starcode      kim PD       0:00      1 (QOSMaxMemoryPerUser)
            317587 gpu-athen starcode      kim  R 1-00:01:03      1 severus
            317585 gpu-athen starcode      kim  R 1-00:05:09      1 remus

QOSMaxMemoryPerUser 때문에 (뭔지 아직 모름) 안돌았음.
>> 이거 ! 내가 이미 severus 라는 노드랑 remus 노드를 사용하고 있기에 ( 한사람당 맥시멈 2 개인가봄..몰랐음 ) 실행이 안되고 있었던 것임.

scancel

$ scancel 317585

JOBID 에 따라서 삭제하고 싶은 잡을 삭제할 수 있음. 죄다 삭제해줬더니 돌아갔음!~~~

scancel 로 큐에 걸린 작업들을 삭제할 수 있고. 작업 정보를 조금 볼 수 있음.

근데 여전히 stu installation 은 난관인 상황..^^;;

====quick note====

‘requirements.txt’  » pip install -r requirements.txt

$ module avail
$ module load {anaconda3?} $ source activate {env name!}

를 해줘야한다는데 이해가 안간다

This post is licensed under CC BY 4.0 by the author.