Недавно унаследовал заброшенный кластер: я пытаюсь проверить его работоспособность. Выполнение теста на узле X с последующим запуском 'top' показывает высокую загрузку процессора процессами mpi (как и ожидалось), но на узле Y top показывает использование 0%.
Это нормально? Можно ли использовать другую утилиту, которая может правильно отслеживать системные ресурсы на узле?
Это ненормально. «Кластер», который я унаследовал, на самом деле представляет собой набор блоков, подключенных через коммутатор Infiniband без разделения нагрузки, то есть вообще не кластер.
Полезная утилита для мониторинга загрузки кластера: ганглии. Config пришлось немного подумать, но он отлично работает, если вы еще не используете другие средства управления кластером, такие как Conga.