У меня есть две машины с установленным MS MPI 7.1, одна называется SERVER, а другая - COMPUTE. Машины настроены в локальной сети в виде простой рабочей группы Windows (без DA), и обе имеют учетную запись с одинаковым именем и паролем.
Оба работают со службой MSMPILaunchSvc. Обе машины могут выполнять задания MPI локально, что подтверждено тестированием с hostname
команда
SERVER> mpiexec -hosts 1 SERVER 1 hostname
SERVER
or
COMPUTE> mpiexec -hosts 1 COMPUTE 1 hostname
COMPUTE
в терминале на самих машинах.
Я отключил брандмауэр на обеих машинах, чтобы упростить задачу.
Моя проблема в том, что я не могу заставить MPI запускать задания с СЕРВЕРА на удаленном хосте:
1: СЕРВЕР с MSMPILaunchSvc -> ВЫЧИСЛИТЬ с MSMPILaunchSvc
SERVER> mpiexec -hosts 1 COMPUTE 1 hostname -pwd
ERROR: Failed RpcCliCreateContext error 1722
Aborting: mpiexec on SERVER is unable to connect to the smpd service on COMPUTE:8677
Other MPI error, error stack:
connect failed - The RPC server is unavailable. (errno 1722)
Что еще больше расстраивает, так это то, что только иногда мне предлагают ввести пароль. Он предлагает SERVER \ Maarten в качестве пользователя для COMPUTE, учетную запись, в которую я уже вошел как на SERVER, и не должно существовать на COMPUTE (тогда должно быть COMPUTE \ Maarten?). Тем не менее, это также не удается:
SERVER>mpiexec -hosts 1 COMPUTE 1 hostname.exe -pwd
Enter Password for SERVER\Maarten:
Save Credentials[y|n]? n
ERROR: Failed to connect to SMPD Manager Instance error 1726
Aborting: mpiexec on SERVER is unable to connect to the
smpd manager on COMPUTE:50915 error 1726
2: ВЫЧИСЛИТЬ с MSMPILaunchSvc -> СЕРВЕР с MSMPILaunchSvc
COMPUTE> mpiexec -hosts 1 SERVER 1 hostname -pwd
ERROR: Failed RpcCliCreateContext error 5
Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677
Other MPI error, error stack:
connect failed - Access is denied. (errno 5)
3: ВЫЧИСЛИТЬ с MSMPILaunchSvc -> СЕРВЕР с демоном smpd
Aborting: mpiexec on COMPUTE is unable to connect to the smpd service on SERVER:8677
Other MPI error, error stack:
connect failed - Access is denied. (errno 5)
4: СЕРВЕР с MSMPILaunchSvc -> ВЫЧИСЛИТЬ с демоном smpd
ERROR: Failed to connect to SMPD Manager Instance error 1726
Aborting: mpiexec on SERVER is unable to connect to the smpd manager on
COMPUTE:51022 error 1726
После проб и ошибок я обнаружил, что эти и другие неспецифические ошибки возникают при попытке запустить MS MPI с разными конфигурациями (в моем случае это сочетание HPC Cluster 2008 и HPC Cluster 2012 с MSMPI).
Решением было понизить версию всех узлов до Windows Server 2008 R2 с помощью HPC Cluster 2008. Поскольку я не использую AD, мне пришлось вернуться к использованию демона SMPD и добавить для него правила брандмауэра (полностью пропустив инструменты управления кластером).