У меня есть доступ к группе серверов, подключенных к локальной сети 1 Гб, и каждый из них имеет 40+ ядер и ОС Ubuntu. У всех есть общий NAS. Я установил SLURM на некоторых из них и настроил его так, чтобы каждый сервер был одновременно управляющим и вычислительным узлами, а серверы не были подключены. Необходимые анализы являются биоинформатическими и зависят от ЦП, но с файлами в ГБ. Мои вопросы следующие:
Мое идеальное решение - перетащить файлы на локальный компьютер (в идеале независимо от их местоположения, но NAS может быть общим концентратором) выполнить вычисления и, возможно, вернуть выходные файлы. Это необоснованная просьба или решенная проблема?
Заранее спасибо!
Да, это вычислительный кластер. У меня есть широкое определение, как несколько вычислительных узлов, которым поручена одна и та же рабочая нагрузка. Подходит большая ферма сборки с несколькими хостами, на которых работают вычислительные ресурсы. То же самое и с огромными системами из списка TOP500.
Что еще более важно, используйте возможности slurm для управления несколькими узлами. В противном случае управление одним контроллером только само по себе - изрядная сложность из-за небольшого количества функций по сравнению с более простыми системами. Сложите все узлы и разделите их на разделы.
Задания, запрашивающие более одного узла, требуют, чтобы программы поддерживали несколько узлов, как в MPI. Для обычных неосведомленных программ просто храните запросы к одному узлу.
Хранилище, вам нужно будет что-то спроектировать для передачи файлов на узлы. Обычно варианты включают: