Назад | Перейти на главную страницу

Обнаружение ошибок Supermicro DIMM (памяти), о которых сообщается во время POST, без перезагрузки

Один из наших серверов Supermicro сообщает об ошибке во время POST:

Неисправный модуль DIMM: расположение модуля DIMM (обнаружен исправляемый компонент памяти)

DIMMB2

Я также вижу это в журнале событий работоспособности в веб-интерфейсе IPMI:

Неисправный модуль DIMM: расположение модуля DIMM. (Обнаружен исправляемый компонент памяти) (DIMMB2)

Пока я не перезагрузил его (по не связанным с этим причинам), сервер работал нормально, поэтому я понятия не имел, что с его оперативной памятью что-то не так. Есть ли способ найти подобные ошибки без перезагрузки сервера, например какая-то команда ipmitool?

Если нет, есть ли способ, по крайней мере, скриптовый способ увидеть эти ошибки после сервер был перезагружен, т.е. без использования веб-интерфейса? Я попытался ipmitool sel elist, но эти записи отображаются как «Неизвестные» события:

5 | 11.10.2019 | 11:21:25 | Неизвестно # 0xff | | Утверждено

редактировать: Я обнаружил, что проприетарный инструмент Supermicro, IPMICFG, может отображать эти события (IPMICFG-Linux.x86_64 -sel list), но было бы неплохо иметь способ сделать это с помощью ipmitool и, самое главное, без перезагрузки.

Попробуйте вместо этого использовать FreeIPMI (например, ipmi-sel): велика вероятность, что он предоставит вам больше информации, чем ipmitool, так как кодовая база намного лучше поддерживается