Назад | Перейти на главную страницу

Сервер внезапно стал очень чувствительным к незначительным отключениям

У нас есть несколько блоков SuperMicro RAID 10 с резервным блоком питания, той же модели и спецификации, а также используется тот же монтируемый в стойку ИБП APC. Внезапно произошла перезагрузка, если есть незначительное отключение.

Журналы Windows указывают только на «неожиданное» - например, на потерю питания. Это случалось раньше, и замена ИБП всегда исправляла это. Поэтому мы заменили 4-летний ИБП на новый. Когда сервер загружался, ИБП решил провести самотестирование, и сервер снова перезагрузился!

Мы не могли винить блок, который мы вынули, поэтому, если два блока питания не работают одновременно, я не могу придумать ничего, что могло бы вызвать это. Замена стандартного ИБП на сетевой почти наверняка вылечит его, но если что-то выйдет из строя ...

============= ДАЛЬНЕЙШЕЕ РАЗЪЯСНЕНИЕ ВОПРОСА =======================

  1. Сервер работал почти четыре года, используя тот же ИБП и конфигурацию.

  2. Недавнее падение напряжения в электросети (которое приводит к переключению ИБП на работу от батареи) и перезагрузка сервера.

  3. Замена ИБП, похоже, не устранила проблему, поскольку он перешел в самотестирование, когда сервер загружался, а затем он (сервер) перезагружался.

Я полагаю, есть контроллер для БП? Что-то стало более чувствительным к миллисекундам, которые требуются для переключения за последние пару месяцев.

Поскольку простои являются основным фактором, замена ИБП на подключенный к сети (например, линейка APC SRT) решит текущую проблему - но может ли этот симптом перерасти в другую серьезную проблему?

изменить: у вас возникла одна из трех проблем, которые вы не можете проверить без дополнительной регистрации продолжительности простоя, при котором система теряет питание. Вы упомянули, что видели временные потери в ИБП. Вам необходимо сопоставить их с журналами Supermicro. Если вы не хотите использовать журналы ИБП, вы можете вместо этого прикрепить один шнур к стене, но журнал ИБП предоставит гораздо более подробную информацию о состоянии.

Все это запускает журнал событий Bios для записи события потери питания. (1) Фактический отказ от сбоя более продолжительный, (2) ИБП не обеспечивает питание, необходимое во время переходного процесса (проблема регулирования), или (3) существует проблема с блоком питания или PDU в системе, не поддерживающим Power Good (PG) состояние материнской платы.

Шасси Supermicro потребляют разное количество энергии в зависимости от количества работающих блоков питания. Система с двойным блоком питания потребляет 50% нагрузки от каждого блока питания, когда напряжение падает до минимума, запаздывающее питание пытается перейти на 100% и ускоряет снижение напряжения при повышении напряжения.

У вас не должно быть обоих расходных материалов в ОДНОМ ИБП, и вы должны следить за своей загрузкой через руководство.

ВАМ СЛЕДУЕТ также знать, что взлеты и падения удвоятся по сравнению с обычными. Я предполагаю, что размер ИБП не соответствует ожидаемой пиковой нагрузке. Это влияет на системы и ИБП.

Информация из графического интерфейса управления на ИБП содержит графики качества электроэнергии, а также состояние батареи и информацию о нагрузке. Это скажет вам, случаются ли у вас отключения в определенное время, и позволит вам, возможно, выяснить причину, по которой они у вас возникают.

При хорошем питании кажется, что блоки работают правильно. Пока неизвестно, что происходит, когда возникает проблема. Съемный внутренний блок питания выдает только +12 В и PowerGood (+5). Внутри системы находится блок распределения питания (PDU), который соединяет шнуры с материнской платой и разделяет +12 В на все остальные напряжения, необходимые материнской плате. Когда ИБП имеет переходный процесс, по какой-либо причине мощность на Supermicro выходит за пределы спецификации ATX (ниже), и система выключается. Это 95% номинальных значений.

Возможно, этот PDU неисправен, но единственный способ его проверить - это заменить блоки питания системы, не обнаружив проблемы. Замена PDU - это настоящая рутина.

Согласно спецификации ATX: The ATX specification requires that the power-good signal ("PWR_OK") go high no sooner than 100 ms after the power rails have stabilized, and remain high for 16 ms after loss of AC power, and fall (to less than 0.4 V) at least 1 ms before the power rails fall out of specification (to 95% of their nominal value). Википедия ATX Power хорошо