Назад | Перейти на главную страницу

Могут ли задания slurm с более низким приоритетом отодвинуть время начала задания с более высоким приоритетом, если они отправлены в другой, но на 100% перекрывающийся раздел?

TL; DR: если бы все задания передо мной в среду были отправлены раньше меня, если бы мое время начала было перенесено примерно на 24 часа, когда я смотрел в четверг, и если все задания передо мной остались бы такими же заданиями по сравнению с В среду (отправлено раньше меня) единственное, что могло отодвинуть мою работу, - это непрерывный поток небольших (но более приоритетных) заданий, которые все выполнялись и выполнялись, верно? Или небольшие задания с более низким приоритетом могут отодвинуть большие задания с более высоким приоритетом, если они отправлены в другой, но полностью перекрывающийся раздел?

Недавно мы обновили наш slurm-кластер, и в процессе было создано новое дополнительное разделение, называемое «backfill», которое, похоже, полностью перекрывает основной раздел. Я не занимаюсь администрированием кластера, но я использовал множество кластеров с различными системами отправки (включая другие кластеры с slurm) и чувствую, что хорошо их понимаю. Я не уверен, почему был создан этот раздел обратной засыпки, но я заметил другое поведение со временем начала для моих больших заданий, которые я иногда выполняю.

В прошлый понедельник днем ​​я отправил задание на 16 ядер и большой объем памяти. Время старта показало, что он начнется поздно вечером. На следующее утро я снова проверил и заметил, что новое время начала было перенесено на поздний (вторник) вечер. Я подумал: «Хорошо, должно быть, на первый план вышли новые высокоприоритетные задания. Еще 2 утра я увидел то же самое, поэтому я начал спрашивать об этом на слабине, и кто-то заметил, что все задания, которые мне были переданы, были представлены до меня. Они также заявили, что ни один из узлов не отключился, и время ожидания рабочих мест не было искусственно продлено.

На следующее утро мое время начала снова было перенесено на тот вечер. Я знаю, что кластер занят, но все задания передо мной были одними и теми же.

Итак ... Я сомневаюсь, что понимаю, как рассчитывается время начала, и есть ли некоторая неправильная конфигурация с этим недавно добавленным разделом обратной засыпки. Я спросил, и ответ был сродни «ну, вы должны ожидать долгое время ожидания с такой большой работой, как ваша» и «время начала - это всего лишь оценка». Но когда я указываю, что время начала должно быть абсолютно точным в худшем случае и должно уменьшаться только в этом сценарии (когда все выполняемые задания были отправлены раньше моего), я не получаю ответа. Мои большие работы никогда не откладывались постоянно, как это раньше, когда не было каких-либо объяснений, таких как отключенные узлы, запросы пользователей с более высоким приоритетом или расширенные задания ...

Поэтому я хотел бы лучше понять, какие факторы могут увеличить время запуска slurm и как его можно настроить, чтобы время запуска было в худшем случае неточным в этом сценарии. Может ли эта новая перегородка для засыпки быть причиной такого поведения?

Кстати, я не хочу, чтобы работа начиналась быстрее. Я просто хочу лучше понять расчет времени начала.