Я пытаюсь исправить наши старые вышедшие из строя блейд-серверы, заменив узлы старыми серверами Supermicro 1U, которые сейчас дешевы. Я делаю это за свои деньги, поэтому цена имеет значение (компания не хочет покупать новое оборудование). Серверы содержат блоки питания Supetmicro с хорошими крышками от хороших производителей, а не Ablecom (я проверил значения и ESR трех из них, и они хорошие), платы Supermicro H8DGU-F (чипсет SR5670 + SP5100), 2x Opteron 6238 12 ядер, 2 процессора Intel Kawela LAN. Карта Infiniband ConnectX2 или ConnectX3 вставлена в единственный слот PCIE на этой плате (бесконечные полосы другие, проблема сохраняется). Мы используем CentOS-7 с осени 2019 года в качестве операционной системы, но магазин, где я купил серверы, сказал, что проблема также проявляется в Windows. Они говорят, что выбрали лучшее, что у них есть, и провели несколько тестов, но сегодня я снова столкнулся с этой неприятной проблемой на этом оборудовании ... Проблема в том, что операционная система самопроизвольно зависает, в основном, при запуске CentOS (при инициализации оборудования перед приветствием ... текст ) или когда система находится под нагрузкой (научный расчет, все ядра). Машина становится недоступной по ssh, экран пустой, никакая реакция на клавиатуру или мышь. Если он зависает при загрузке ОС и вы не нажимали Esc для отображения сообщений, нижняя полоса иногда продолжает двигаться, а затем останавливается. Если вы нажмете Esc, вы можете увидеть, что он зависает при проверке жесткого диска или инициализации Infiniband ... BIOS обновлен до последней версии 3.5c, CMOS очищен, оптимальные значения по умолчанию загружены. Я контролировал температуру с помощью IPMI и просто пальцем, ничего страшного. Напряжения в IPMI и BIOS хорошие. Пульсации при высокой нагрузке на шине 12 В не превышают 200 мВ, я не думаю, что это может вызвать зависания, да и есть разные источники питания. Я купил 4 сервера и 6 плат H8DGU-F. Две платы с ревизией 1.01 зависают идентично (после 2 дней загрузки, после нескольких часов загрузки или при запуске расчета, или во время загрузки), одна из версий 1.01 из того же запаса проработала 7 дней при максимальной нагрузке и была успешно перезагружена примерно 10 раз, у одной из ревизий 2.00 все слоты памяти CPU2 были мертвы (это не актуально, замена была отправлена), одна из ревизии 2.00 проработала успешно 9 дней и запустилась успешно примерно 10 раз. В чем может быть причина? Не могу поверить, что серверные платы настолько плохи. Это действительно расстраивает. В новом они дорогие, разве они не должны быть надежными и долговечными по цене? Может кто подскажет, в чем может быть причина?
(Извините, дело в IPMI версии платы, поэтому я поправил тему)
Странно смотрится, что ответов нет, может просто старенькая плата. ТАК отвечая (частично) на мой вопрос. У меня был разговор с одной из компаний, в которой я купил эту плату. Они говорят, что эта модель (rev. 1.01, 2.00) проблемная, другой магазин подтверждает, что rev. 1.01. Из 4 плат ревизии 2.00 одна не видит память в слотах CPU2, одна перезагружается и имеет проблемы с сетью, две сейчас тестируются под полной нагрузкой. Начиная с ревизии 1.01 две платы зависают (при загрузке, сразу после старта высокой нагрузки, после часов или ~ 2 дней высокой нагрузки), одна плата проработала 2,5 недели при высокой нагрузке, одна плата проработала ~ 2 дня при высокой нагрузке (обычно, 15 ... 20 Тесты загрузки CentOS-7 выполняются перед запуском сервера, потому что иногда это помогает выявить зависание раньше, которое просто вызывает нагрузку). Так что избегайте H8DGU-F, они кажутся очень ненадежными / ненадежными, хотя и дешевыми. В моей ситуации я не вижу другого варианта из-за высоких цен на другие платы Opteron 6000, поэтому я проверю, есть ли 3 ... 4 хороших платы для использования, возможно, с одной H8DGi или H8DG6 (это версии с двумя чипсетами. и имеет встроенный RAID-контроллер, поэтому они в 2 ... 5 раз дороже).