Попытка заставить qsub работать в моем кластере (сейчас один узел, но скоро будет больше). Пока что попытки отправить с qsub возвращались
error: commlib error: got select error (Connection refused)
Unable to run job: unable to send message to qmaster using port 536 on host "nes.local": got send error.
Exiting.
Я подписался на несколько сообщений на gridengine.org, в которых предлагалось:
/etc/init.d/sgemaster.nes start
/etc/init.d/sgeexecd.nes start
Кажется, в этом есть прогресс, поскольку теперь qsub говорит:
Your job 4 ("some_job.qsub") has been submitted
но он остается незавершенным навсегда.
qhost -f
возвращает:
HOSTNAME ARCH NCPU LOAD MEMTOT MEMUSE SWAPTO SWAPUS
-------------------------------------------------------------------------------
global - - - - - - -
nes linux-x64 72 0.04 378.4G 6.4G 15.6G 0.0
hl:arch=linux-x64
hl:num_proc=72.000000
hl:mem_total=378.413G
hl:swap_total=15.625G
hl:virtual_total=394.038G
hl:load_avg=0.040000
hl:load_short=0.080000
hl:load_medium=0.040000
hl:load_long=0.010000
hl:mem_free=371.978G
hl:swap_free=15.625G
hl:virtual_free=387.603G
hl:mem_used=6.435G
hl:swap_used=0.000
hl:virtual_used=6.435G
hl:cpu=0.100000
hl:m_topology=SCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTSCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTT
hl:m_topology_inuse=SCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTSCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTTCTT
hl:m_socket=2.000000
hl:m_core=36.000000
hl:np_load_avg=0.000556
hl:np_load_short=0.001111
hl:np_load_medium=0.000556
hl:np_load_long=0.000139
Буду признателен за любую помощь, спасибо
Я получаю эту ошибку, если забыл загрузить модуль перед запуском команды.
module load torque
(Предполагая, что мы говорим о крутящем моменте.) Это должно исправить :) Или вставьте .bashrc
поэтому вам не нужно вводить его каждый раз.