Запросить пиковую память графического процессора, используемую завершенным заданием

У меня есть работа SLURM, с которой я отправляюсь sbatch, Такие как

sbatch --gres gpu:Tesla-V100:1 job.sh

job.sh обучает модель на графическом процессоре V100. Сам код не регистрирует использование памяти графического процессора.

Есть ли команда SLURM для запроса пикового использования памяти графического процессора после завершения задания?

Я не уверен, что можно будет найти нагрузку, вызванную самим запуском sbatch job. Но вы можете попробовать проверить общий показатель использования вашей карты. Как я понял для nvidia есть nvidia-smi инструмент. Я нашел другие инструменты, упомянутые в этот вопрос.

Поэтому я предлагаю установить nvidia-smi и запустить его в отдельном окне терминала с помощью такой команды:

watch nvidia-smi

А затем запустите свою работу. Вы должны загружать изменения на свою карту в режиме реального времени.

Еще одна возможность - отследить свою работу с другие профилировщики. К сожалению, у меня нет карты nvidia, и я не могу проверить ни один из этих инструментов, но я полагаю, что это поможет вам в вашем расследовании.

После разговора с сотрудниками нашей команды высокопроизводительных вычислений: кажется, что

SLURM не регистрирует использование памяти графического процессора запущенными заданиями, отправленными с sbatch.

Следовательно, эту информацию нельзя восстановить с помощью какой-либо команды SLURM. Например, такая команда, как

ssacct -j [job id]

показывает общее использование памяти, но не использование памяти графического процессора.