Один из наших серверов Supermicro сообщает об ошибке во время POST:
Неисправный модуль DIMM: расположение модуля DIMM (обнаружен исправляемый компонент памяти)
DIMMB2
Я также вижу это в журнале событий работоспособности в веб-интерфейсе IPMI:
Неисправный модуль DIMM: расположение модуля DIMM. (Обнаружен исправляемый компонент памяти) (DIMMB2)
Пока я не перезагрузил его (по не связанным с этим причинам), сервер работал нормально, поэтому я понятия не имел, что с его оперативной памятью что-то не так. Есть ли способ найти подобные ошибки без перезагрузки сервера, например какая-то команда ipmitool?
Если нет, есть ли способ, по крайней мере, скриптовый способ увидеть эти ошибки после сервер был перезагружен, т.е. без использования веб-интерфейса? Я попытался ipmitool sel elist
, но эти записи отображаются как «Неизвестные» события:
5 | 11.10.2019 | 11:21:25 | Неизвестно # 0xff | | Утверждено
редактировать: Я обнаружил, что проприетарный инструмент Supermicro, IPMICFG, может отображать эти события (IPMICFG-Linux.x86_64 -sel list
), но было бы неплохо иметь способ сделать это с помощью ipmitool
и, самое главное, без перезагрузки.
Попробуйте вместо этого использовать FreeIPMI (например, ipmi-sel): велика вероятность, что он предоставит вам больше информации, чем ipmitool, так как кодовая база намного лучше поддерживается