Назад | Перейти на главную страницу

Как я могу сказать AGE прекратить назначать работу вычислительному узлу?

Я хочу пометить узел (или набор узлов) как «автономный» в том смысле, что я хочу, чтобы Sun Grid Engine перестал назначать им новую работу. Это будет для какого-то технического обслуживания самих узлов. Узлы должны завершить всю назначенную им работу, а затем просто перейти в какое-то состояние простоя («офлайн»). Я искал документацию qconf, но я не могу найти этот вариант использования ни в одном руководстве.

Поиски привели меня к утилите qmod. Я сделал простой тест

qmod -d ИМЯ ОЧЕРЕДИ.q@MACHINENAME

и, похоже, это работает, хотя я на самом деле не пробовал это с запущенными заданиями. Выходные данные qstat изменены, чтобы указать, что узел отключен - появляется флаг «d».

qmod -e ИМЯ ОЧЕРЕДИ. q@ ИМЯ МАШИНЫ

снова включит машину.

В нашем кластере машины называются worker - ## - ##, где два числа - это номер стойки и номер ранга. Мы запускаем только одну главную очередь с именем «all.q». И машины в нашем кластере будут перечислены с суффиксом ".local" в выводе qstat. Таким образом, приведенная выше команда оказывается

qmod -d all.q@worker-9-9.local

вывести машину на стойке 9, разряд 9 из очереди.