Я здесь впервые, поэтому надеюсь, что не пропущу ни одного правила этого сайта.
У меня есть небольшой кластер с запущенным на нем debian 7 и pbs / Torque 2.5.12.
Все работало правильно, и теперь (на самом деле я предполагаю, что проблема возникла, когда программа вылетела из строя во время выполнения задания, но это только гипотеза) я не могу запустить qstat
больше нет.
Я получаю следующее сообщение:
No such file or directory
qstat: cannot connect to server (null) (errno=0) Success
Другие команды PBS работают правильно (qsub
, qdel
, ...), так что я все еще могу выполнять некоторые задания. Но я больше не могу проверить статус вакансий. Я потратил довольно много времени на устранение проблемы, но мне очень трудно найти подсказку.
Спасибо за помощь.
EDIT_1
Я активировал отладку
export PBSDEBUG=yes
и я получаю от qstat
команда:
pbs_connect using default server name list ""
No such file or directory
qstat: cannot connect to server (null) (errno=0) Success
Получается, что список имен серверов по умолчанию пусто. Когда я запускаю другую команду, например qsub
xauth_path=/usr/bin/xauth
pbs_connect using default server name list "master0"
pbs_connect attempting connection to server "master0"
pbs_connect: Successful connection to server "master0", fd = 1
155177.master0
В список имен серверов по умолчанию правильно. У меня все еще есть идея исправить это. Конфигурация выглядит нормально, насколько я могу проверить.
РЕДАКТИРОВАТЬ_2
Если я установлю PBS_DEFAULT
переменная окружения (обычно не требуется)
export PBS_DEFAULT=master0
затем qstat
работает как root, но у меня больше нет прав как стандартный пользователь (errno = 15007).