Я собираюсь установить наш новый кластер. Я установил первый узел и использовал его для создания золотого образа. В качестве программного обеспечения для очередей мы используем SGE
(Sun Grid Engine). После установки первого узла я протестировал отправку с qsub
и чтение статистики очереди с qstat
. Это сработало, как и ожидалось. Однако после клонирования на другой узел SGE не работает. Я не могу запустить демон. Если я попробую qstat -f
через некоторое время я вижу сообщение:
"error: unable to send message to qmaster using port 535 on host "myHOST": got send timeout*"
Я не уверен, откуда это взялось, так как /etc/services
и настройки брандмауэра одинаковы на обоих хостах. Другое дело, что каталог спула для нового узла не был создан (это можно понять).
Может кто-нибудь посоветует как установить SGE
с помощью systemimager
без лишних болей. Я бы не хотел для начала перебирать все вычислительные узлы ./install_execd