На узле управления суперкомпьютером мы получаем множество ошибок, таких как:
pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)
А за ними почти каждую минуту следует эта:
last message repeated 16 times
где количество повторов меняется время от времени.
Упомянутый адрес 10.10.0.254 является одним из адресов узла управления. Порт 1023 согласно "netstat -pa | grep 1023" связан с pbs_mom.
Оказывается, узел управления несколько раз в минуту пытается подключиться к самому себе и не может этого сделать. Совет из текста ошибки не очень помогает, узел управления не должен находиться в файле «узлов», насколько я понимаю.
Может ли кто-нибудь подсказать, как решить эту проблему?
Ваш управляющий узел не определен как узел в pbs. Откройте qmgr и запустите «создать узел [имя хоста без скобок]». Другой вариант - убить pbs_mom, поскольку вы, вероятно, не хотите запускать вычислительные задания на своем головном узле.
Я столкнулся с этой проблемой, и причина в том, что у меня есть несколько сетевых интерфейсов (GE, IB) на вычислительных узлах, которые доступны для узла администратора.
Узел администратора в затронутом вычислительном узле определен в отдельной подсети, как предполагается, с другой сетевой картой.