В системе две машины: одна (называемая macondo02) запускает pbs_server и pbs_schedule, другая (называемая macondo01) запускает pbs_mom. Я убедился, что хозяин может четко идентифицировать существование гостя:
$ pbsnodes -a
macondo01
state = free
np = 64
ntype = cluster
status = rectime=1403183300,varattr=,jobs=,state=free,netload=1102560564743,gres=,loadave=0.00,ncpus=64,physmem=131988228kb,availmem=263457400kb,totmem=266160896kb,idletime=705,nusers=6,nsessions=17,sessions=2817 59201 59937 18341 21924 27356 30089 31663 32133 32934 34374 7341 42678 58843 59605 59606 59741,uname=Linux macondo01 3.2.0-38-generic #61-Ubuntu SMP Tue Feb 19 12:18:21 UTC 2013 x86_64,opsys=linux
Однако всякий раз, когда я отправляю задание через qsub, задание не запускалось, и я получал сообщение об ошибке в журнале PBS_server.
06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command new
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Modified at request of Scheduler@macondo02.uq.edu.au
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Run at request of Scheduler@macondo02.uq.edu.au
06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command recyc
06/19/2014 23:00:20;0010;PBS_Server;Job;54.macondo02.uq.edu.au;Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=7680kb resources_used.vmem=23876kb resources_used.walltime=00:00:01
06/19/2014 23:00:24;000d;PBS_Server;Job;54.macondo02.uq.edu.au;Post job file processing error; job 54.macondo02.uq.edu.au on host macondo01/0
06/19/2014 23:00:24;0100;PBS_Server;Job;54.macondo02.uq.edu.au;dequeuing from batch, state COMPLETE
06/19/2014 23:00:24;0040;PBS_Server;Svr;macondo02.uq.edu.au;Scheduler was sent the command term
По-видимому, сбой происходит из-за публикации задания от хоста (например, macondo02) гостю (например, macondo01).
У меня в голове есть несколько идей: 1. Я знаю, что необходимо установить бесшовное соединение между хостом и гостем, используя NFS. Я сделал это СОБСТВЕННОМУ ОБЫЧНОМУ пользователю и использую этого пользователя для отправки задания qsub. пока ошибка все еще возникает. 2. В файле ошибок я увидел другого пользователя с именем Scheduler@macondo02.uq.edu.au, однако я не могу найти никакой информации об этом usr в cat / etc / groups, и не могу дать полное право посещать macondo01.
Мы ценим любые предложения!
Попробуйте проверить /var/log/syslog
или файлы журнала PBS на компьютере, на котором выполнялось задание, который был хостом macondo01
.
Вы ищете что-то вроде этого, вероятно, ошибка при копировании файла журнала задания:
pbs_mom: LOG_ERROR::sys_copy, command '/usr/bin/scp -rpB /var/spool/torque/spool...
Вы можете найти фактический журнал этого запуска в /var/spool/torque/undelivered/
.
Проблема может быть в PBS_SCP
команда, которая требует беспарольного ssh-доступа к машине, обычно она использует такую команду:
$PBS_SCP -rpB <path to source> <user>@<destination.host>:<path to destination>