Назад | Перейти на главную страницу

Использование менеджеров HPC, таких как Slurm, на нескольких серверах в локальной сети

У меня есть доступ к группе серверов, подключенных к локальной сети 1 Гб, и каждый из них имеет 40+ ядер и ОС Ubuntu. У всех есть общий NAS. Я установил SLURM на некоторых из них и настроил его так, чтобы каждый сервер был одновременно управляющим и вычислительным узлами, а серверы не были подключены. Необходимые анализы являются биоинформатическими и зависят от ЦП, но с файлами в ГБ. Мои вопросы следующие:

Это не вычислительный кластер, верно? Что потребуется для объединения этих серверов в единый кластер?
Является ли допустимой практикой использование менеджеров HPC, таких как Slurm, в этой конфигурации? Как будут передаваться данные? У них есть общий NAS, но выполнение любых вычислений непосредственно на NAS очень медленно по сравнению с локальными файлами.

Мое идеальное решение - перетащить файлы на локальный компьютер (в идеале независимо от их местоположения, но NAS может быть общим концентратором) выполнить вычисления и, возможно, вернуть выходные файлы. Это необоснованная просьба или решенная проблема?

Заранее спасибо!

Да, это вычислительный кластер. У меня есть широкое определение, как несколько вычислительных узлов, которым поручена одна и та же рабочая нагрузка. Подходит большая ферма сборки с несколькими хостами, на которых работают вычислительные ресурсы. То же самое и с огромными системами из списка TOP500.

Что еще более важно, используйте возможности slurm для управления несколькими узлами. В противном случае управление одним контроллером только само по себе - изрядная сложность из-за небольшого количества функций по сравнению с более простыми системами. Сложите все узлы и разделите их на разделы.

Задания, запрашивающие более одного узла, требуют, чтобы программы поддерживали несколько узлов, как в MPI. Для обычных неосведомленных программ просто храните запросы к одному узлу.

Хранилище, вам нужно будет что-то спроектировать для передачи файлов на узлы. Обычно варианты включают:

Скопируйте файлы в локальное хранилище каждого узла. (slurm sbcast)
Разделяйте распределенное хранилище между дисками многих узлов. (Блеск, цеф)
На каждом узле установлен высокопроизводительный файловый ресурс. (Все флеш-массивы, обслуживающие NFS)