Я новичок в SLURM. Я ищу удобный способ узнать, сколько памяти в node / nodelist доступно для моего распределения srun.
Я уже играл с sinfo, scontrol и sstat, но ни один из них не дает мне нужной информации в одном удобном обзоре.
У меня возникла идея написать сценарий оболочки, чтобы извлекать все поля всех заданий из scontrol и суммировать их. Но должен быть способ попроще. Было бы здорово, если у кого-нибудь есть подсказка или идея!
7-й столбец вывода sinfo -N -l
сообщит вам, сколько памяти установлено на каждом вычислительном узле.
$sinfo -N -l
Wed Nov 6 16:31:45 2013
NODELIST NODES PARTITION STATE CPUS S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON
node001 1 Def* idle 8 2:4:1 24150 920644 100 Xeon,X55 none
Команда scontrol -o show nodes
сообщит вам, сколько памяти уже используется на каждом узле. Ищите AllocMem
вход. (Требуется Slurm 2.6.0 или более поздняя версия)
$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0