Я работаю с кластером из 13 компьютеров, работающим на Windows Server 2012 R2, с использованием MS HPC Pack 2012 R2. Головной узел работает нормально. Серверы подключены к корпоративной сети по IPv4 на стандартных адаптерах. Однако узлы также связаны друг с другом через infiniBand.
Неделю назад кластер был перемещен в новый домен с теми же именами хостов. Полное доменное имя, конечно, изменилось, и в большинстве случаев оно работает правильно, за исключением того, что для Network Direct теперь установлено значение false на всех 12 вычислительных узлах.
После миграции на головном узле были переустановлены все компоненты HPC. Узлы остались нетронутыми. Поскольку я думал, что это причина включения Network Direct, я также попытался переустановить HPC на одном из узлов. Это не решило проблему.
Брандмауэр Windows отключен на всех уровнях на всех узлах, включая головной узел.
В
Серверы отвечают на запросы PING по IP-адресам, установленным для адаптеров infiniBand.
У кого-нибудь есть идеи по этому поводу? Заранее спасибо.
Вставьте сетевые карты Mellanox в Ethernet, чтобы все работало надежно. InfiniBand с Windows - это такая PITA!