У меня есть сервер whitebox под управлением CentOS 5.7. Это Dual Xeon 5620, 24 ГБ оперативной памяти. Материнская плата - SuperMicro X8DT6-F, а шасси - SC825TQ-R720LPB. Двойные блоки питания 720 Вт.
Пару недель назад у нас был большой перебой в подаче электроэнергии, в результате которого все вышло из строя, у меня нет никаких данных о отключении электричества для этого сервера, и единственная причина, по которой я это заметил, заключается в том, что когда я поднимал серверы, я проверял их с большим вниманием, чем обычно.
http://i.imgur.com/rSjiw.png (Изображение показаний напряжения)
Как вы можете видеть, DIMM CPU1 имеет низкий уровень, + 3.3V высокий, 3.3VSB высокий, + 5v высокий, +12v РЕАЛЬНЫЙ НИЗКИЙ (из нормальных 5% (плюс / минус)) ... графики.
С моим VAR белого ящика мы пробовали следующее:
На данный момент единственное, что мы еще не сделали, по-видимому, заменили материнскую плату ... что будет следующим шагом, если что-то еще не проливает свет на ситуацию.
Я должен упомянуть, что система надежна, в противном случае, что является сюрпризом, учитывая, что напряжение 12 В так далеко.
Учитывая, что вы говорите, что сервер надежен и работает правильно, и что эти напряжения значительно ниже, я держу пари, что либо программное обеспечение для мониторинга неверно интерпретирует напряжения, либо датчики неисправны / неисправны. Если бы это были фактические напряжения, в системе было бы много проблем, и аккумулятор, вероятно, был бы поврежден из-за перезарядки.
Я предполагаю, что вы используете IPMI для получения показаний напряжения - поскольку это контролируется производителем оборудования, это вряд ли будет ошибкой. Таким образом, остаются неисправные датчики напряжения, которые в большинстве систем встроены в материнскую плату.
Чтобы проверить эту теорию, используйте вольтметр для измерения заряда батареи и шин питания 12 В. Поскольку они находятся дальше всего, должно быть легко увидеть, близки ли они к тому, что показывают датчики.
Решение - либо заменить материнскую плату, либо игнорировать датчики и надеяться на лучшее.
Сброс конфигурации BMC устранил ошибки на датчиках, и теперь все читается нормально.