У меня есть работа SLURM, с которой я отправляюсь sbatch
, Такие как
sbatch --gres gpu:Tesla-V100:1 job.sh
job.sh
обучает модель на графическом процессоре V100. Сам код не регистрирует использование памяти графического процессора.
Есть ли команда SLURM для запроса пикового использования памяти графического процессора после завершения задания?
Я не уверен, что можно будет найти нагрузку, вызванную самим запуском sbatch job. Но вы можете попробовать проверить общий показатель использования вашей карты. Как я понял для nvidia есть nvidia-smi инструмент. Я нашел другие инструменты, упомянутые в этот вопрос.
Поэтому я предлагаю установить nvidia-smi и запустить его в отдельном окне терминала с помощью такой команды:
watch nvidia-smi
А затем запустите свою работу. Вы должны загружать изменения на свою карту в режиме реального времени.
Еще одна возможность - отследить свою работу с другие профилировщики. К сожалению, у меня нет карты nvidia, и я не могу проверить ни один из этих инструментов, но я полагаю, что это поможет вам в вашем расследовании.
После разговора с сотрудниками нашей команды высокопроизводительных вычислений: кажется, что
SLURM не регистрирует использование памяти графического процессора запущенными заданиями, отправленными с sbatch
.
Следовательно, эту информацию нельзя восстановить с помощью какой-либо команды SLURM. Например, такая команда, как
ssacct -j [job id]
показывает общее использование памяти, но не использование памяти графического процессора.