Меня попросили обновить установку Slurm Workload Manager. У меня есть slurm 2.3.4 на кластере Wheezy Debian 7.0 (1 мастер + 8 узлов). Я не установил его, поэтому я немного не понимаю, как это сделать и как действовать, не разрушая ничего. (На самом деле я не могу создавать резервные копии данных, так как данных слишком много терабайт, чтобы думать, чтобы скопировать их в другое место.)
Я думал обновить хотя бы до Jessie (Debian 8), но как насчет Slurm? Я внимательно прочитал раздел обновления (https://slurm.schedmd.com/quickstart_admin.html) документа, читая, что обновление должно выполняться постепенно, а не переходить, например, с 2.3.4 на 17.
Мне все еще не ясно, как это сделать. Как бы вы поступили, если бы вас попросили обновить кластер, о котором вы просто ничего не знаете? Что бы вы проверили? Какая версия o.s. и слёрм вы бы выбрали? Что бы вы сделали резервную копию? И как бы вы поступили?
Любая информация - золото! Спасибо
Я сделал аналогичные обновления с Torque / Moab, но не с Slurm, но могу дать несколько советов. Если вы можете получить тестовую систему или виртуальную машину, чтобы убедиться, что все будет работать после обновления, это будет идеально. В противном случае в документе упоминается сложная часть:
Slurm позволяет выполнять обновления между любыми двумя версиями, основные номера выпусков которых отличаются на два или меньше (например, с 15.08.x или с 16.05.x до 17.02.x) без потери заданий или другой информации о состоянии. Информация о состоянии из более старых версий не будет распознаваться и будет отброшена, что приведет к потере всех запущенных и ожидающих выполнения заданий.
Это означает, что если после обновления у вас есть запущенные и ожидающие задания, их там не будет. Таким образом, пользователям необходимо снова отправлять задания, что означает, что вы потеряете приоритет и другие метаданные, связанные с заданием, и информацию о состоянии.
В Torque / Moab была папка с заданиями, которую обычно можно скопировать и перенести в новую версию. Есть что-нибудь подобное?
По сути, если у вас нет тестовой машины, то в этом случае вам нужно будет запланировать время простоя и сообщить пользователям, что все текущие задания в очереди будут потеряны, что означает, что им придется повторно отправить все. Если это не вариант, вам нужно найти способ перенести задания в обновленную систему.