Назад | Перейти на главную страницу

Многочисленные ошибки pbs_server в / var / log / messages

На узле управления суперкомпьютером мы получаем множество ошибок, таких как:

pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)

А за ними почти каждую минуту следует эта:

last message repeated 16 times

где количество повторов меняется время от времени.

Упомянутый адрес 10.10.0.254 является одним из адресов узла управления. Порт 1023 согласно "netstat -pa | grep 1023" связан с pbs_mom.

Оказывается, узел управления несколько раз в минуту пытается подключиться к самому себе и не может этого сделать. Совет из текста ошибки не очень помогает, узел управления не должен находиться в файле «узлов», насколько я понимаю.

Может ли кто-нибудь подсказать, как решить эту проблему?

Ваш управляющий узел не определен как узел в pbs. Откройте qmgr и запустите «создать узел [имя хоста без скобок]». Другой вариант - убить pbs_mom, поскольку вы, вероятно, не хотите запускать вычислительные задания на своем головном узле.

Я столкнулся с этой проблемой, и причина в том, что у меня есть несколько сетевых интерфейсов (GE, IB) на вычислительных узлах, которые доступны для узла администратора.

Узел администратора в затронутом вычислительном узле определен в отдельной подсети, как предполагается, с другой сетевой картой.