У меня есть один главный узел и два подчиненных узла.
Один подчиненный узел подключается успешно, но один узел не работает.
Каждый узел имеет 18.04 Ubuntu и 17.11 Slurm
Если вы бежите к systemctl status slurmd.service
Я получаю такую ошибку:
slurmd.service - демон узла Slurm Загружен: загружен (/lib/systemd/system/slurmd.service; включен; предустановка поставщика: включен) Активен: сбой (Результат: код выхода) с вторника 15.10.2019 15:28: 22 KST; 22мин назад Документы: man: slurmd (8) Процесс: 27335 ExecStart = / usr / sbin / slurmd $ SLURMD_OPTIONS (code = exited, status = 1 / FAILURE) Главный PID: 75036 (code = exited, status = 0 / SUCCESS) Задачи : 1 (ограничение: 19660) CGroup: /system.slice/slurmd.service └─97690 / usr / sbin / slurmd -d / usr / sbin / slurmstepd
Oct 15 15:28:22 seok-System systemd[1]: Starting Slurm node daemon...
Oct 15 15:28:22 seok-System systemd[1]: slurmd.service: Control process exited, code=exited status=1
Oct 15 15:28:22 seok-System systemd[1]: slurmd.service: Failed with result 'exit-code'.
Oct 15 15:28:22 seok-System systemd[1]: Failed to start Slurm node daemon.
Когда я бегу slurmd -Dvvv
Получаю следующий результат:
(null): log_init (): Невозможно открыть файл журнала` / var / log / slurmd.log ': В доступе отказано slurmd: debug: Файл журнала повторно открыт slurmd: Агрегация сообщений отключена slurmd: debug: init: загружен плагин Gres GPU slurmd : Gres Name = gpu Type = gtx1080ti Count = 1 slurmd: Gres Name = gpu Type = gtx1080ti Count = 1 slurmd: номер устройства графического процессора 0 (/ dev / nvidia0): c 195: 0 rwm slurmd: номер устройства графического процессора 1 (/ dev / nvidia1): c 195: 1 rwm slurmd: топология NONE плагин загружен slurmd: загружен плагин по умолчанию для маршрута slurmd: debug2: Сбор информации о частоте ЦП для 32 ЦП slurmd: debug: Спецификация ресурса: На этом узле не настроены специализированные ядра по умолчанию slurmd: debug: Resource spec: Зарезервированный предел системной памяти не настроен для этого узла slurmd: debug: Чтение файла cgroup.conf /etc/slurm/cgroup.conf slurmd: debug: Игнорирование устаревшей опции CgroupReleaseAgentDir. slurmd: debug: чтение файла cgroup.conf /etc/slurm/cgroup.conf slurmd: debug: игнорирование устаревшей опции CgroupReleaseAgentDir. slurmd: debug2: _file_write_content: невозможно открыть '/sys/fs/cgroup/memory/memory.use_hierarchy' для записи: Permission denied slurmd: debug2: xcgroup_set_param: cannot set parameter 'memory.use_hierarchy' to '1' for '/ sys / fs / cgroup / memory 'slurmd: debug: task / cgroup / memory: total: 128846M разрешено: 100% (принудительно), swap: 0% (разрешено), max: 100% (128846M) max + swap: 100% (257692M) мин: 30M kmem: 100% (128846M принудительно) min: 30M swappiness: 0 (не задано) slurmd: debug: task / cgroup: теперь ограничивает задания, выделенную память slurmd: debug: task / cgroup: loaded slurmd: debug: Munge загружен плагин аутентификации slurmd: debug: spank: открытие стека плагинов /etc/slurm/plugstack.conf slurmd: загружен плагин криптографической подписи Munge slurmd: error: chmod (/ var / spool / slurmd, 0755): Операция запрещена slurmd: error: Невозможно инициализировать slurmd spooldir slurmd: ошибка: не удалось инициализировать slurmd
Два узла имеют одинаковую ошибку, но один узел успешно получает slurmd
доступ, отказ одного узла
Проверяю munge, разрешение и тд, но не знаю, как исправить?
и вот мой slurm.conf
:
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
ControlMachine=master
ControlAddr=ip.ip.ip.ip
#BackupController=
#BackupAddr=
#
AuthType=auth/munge
AuthInfo=/var/run/munge/munge.socket.2
#CheckpointType=checkpoint/none
CryptoType=crypto/munge
#DisableRootJobs=NO
#EnforcePartLimits=NO
#Epilog=
#EpilogSlurmctld=
#FirstJobId=1
#MaxJobId=999999
#GresTypes=
#GroupUpdateForce=0
#GroupUpdateTime=600
#JobCheckpointDir=/var/slurm/checkpoint
#JobCredentialPrivateKey=
#JobCredentialPublicCertificate=
#JobFileAppend=0
#JobRequeue=1
#JobSubmitPlugins=1
#KillOnBadExit=0
#LaunchType=launch/slurm
#Licenses=foo*4,bar
#MailProg=/bin/mail
#MaxJobCount=5000
#MaxStepCount=40000
#MaxTasksPerNode=128
MpiDefault=none
#MpiParams=ports=#-#
PluginDir=/usr/lib/slurm
#PlugStackConfig=
#PrivateData=jobs
ProctrackType=proctrack/cgroup
#Prolog=
#PrologFlags=
#PrologSlurmctld=
#PropagatePrioProcess=0
#PropagateResourceLimits=
#PropagateResourceLimitsExcept=
#RebootProgram=
ReturnToService=1
#SallocDefaultCommand=
SlurmctldPidFile=/var/run/slurm-llnl/slurmctld.pid
SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm-llnl/slurmd.pid
SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
#SlurmdUser=root
#SrunEpilog=
#SrunProlog=
StateSaveLocation=/var/spool/slurm-llnl
SwitchType=switch/none
#TaskEpilog=
TaskPlugin=task/cgroup
TaskPluginParam=Sched
#TaskProlog=
#TopologyPlugin=topology/tree
#TmpFS=/tmp
#TrackWCKey=no
#TreeWidth=
#UnkillableStepProgram=
#UsePAM=0
#
#
# TIMERS
#BatchStartTimeout=10
#CompleteWait=0
#EpilogMsgTime=2000
#GetEnvTimeout=2
#HealthCheckInterval=0
#HealthCheckProgram=
InactiveLimit=0
KillWait=30
#MessageTimeout=10
#ResvOverRun=0
MinJobAge=300
#OverTimeLimit=0
SlurmctldTimeout=120
SlurmdTimeout=300
#UnkillableStepTimeout=60
#VSizeFactor=0
Waittime=0
#
#
# SCHEDULING
#DefMemPerCPU=0
FastSchedule=1
#MaxMemPerCPU=0
#SchedulerTimeSlice=30
SchedulerType=sched/backfill
SelectType=select/cons_res
SelectTypeParameters=CR_Core
#
#
# JOB PRIORITY
#PriorityFlags=
#PriorityType=priority/basic
#PriorityDecayHalfLife=
#PriorityCalcPeriod=
#PriorityFavorSmall=
#PriorityMaxAge=
#PriorityUsageResetPeriod=
#PriorityWeightAge=
#PriorityWeightFairshare=
#PriorityWeightJobSize=
#PriorityWeightPartition=
#PriorityWeightQOS=
#
#
# LOGGING AND ACCOUNTING
#AccountingStorageEnforce=0
#AccountingStorageHost=
#AccountingStorageLoc=
#AccountingStoragePass=
#AccountingStoragePort=
AccountingStorageType=accounting_storage/none
#AccountingStorageUser=
AccountingStoreJobComment=YES
ClusterName=cluster
DebugFlags=NO_CONF_HASH
#JobCompHost=
#JobCompLoc=
#JobCompPass=
#JobCompPort=
JobCompType=jobcomp/none
#JobCompUser=
#JobContainerType=job_container/none
#JobCompUser=
#JobContainerType=job_container/none
JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=3
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=3
SlurmdLogFile=/var/log/slurmd.log
#SlurmSchedLogFile=
#SlurmSchedLogLevel=
#
#
# POWER SAVE SUPPORT FOR IDLE NODES (optional)
#SuspendProgram=
#ResumeProgram=
#SuspendTimeout=
#ResumeTimeout=
#ResumeRate=
#SuspendExcNodes=
#SuspendExcParts=
#SuspendRate=
#SuspendTime=
#
#
# COMPUTE NODES
GresTypes=gpu
NodeName=node1 Gres=gpu:pascal:1 NodeAddr=ip.ip.ip.ip CPUs=32 State=UNKNOWN CoresPerSocket=8 ThreadsPerCore=2 RealMemory=48209
NodeName=node2 Gres=gpu:pascal:2 NodeAddr=ip.ip.ip.ip CPUs=32 State=UNKNOWN CoresPerSocket=16 ThreadsPerCore=2 RealMemory=128846
PartitionName=Test Nodes=node1 Default=YES MaxTime=INFINITE State=UP
PartitionName=Test Nodes=node2 Default=YES MaxTime=INFINITE State=UP
редактировать
/var/spool
разрешение drwxr-xr-x 8 root root 4096 Oct 15 14:58 spool
/var/spool/slurmd
разрешение drwxr-xr-x 2 slurm slurm 4096 Oct 15 14:58 slurmd
Я использовал эту команду sudo chmod 777 /var/spool /var/spool/slurmd
чтобы изменить разрешения, но такая же ошибка не работает.
редактировать
Вот мой файл slurmd.log:
gpu device number 0(/dev/nvidia0):c 195:0 rwm
gpu device number 1(/dev/nvidia1):c 195:1 rwm
fatal: Unable to find slurmstepd file at /tmp/slurm-build/sbin/slurmstepd
Я не трогал slurmstepd
а где это настраивается?