Назад | Перейти на главную страницу

как узнать, отказал ли сервер из-за ошибки памяти

Я недавно прочитал Эта бумага этот @codinghorror творил, и мне интересно, как я узнаю, что мой сервер вышел из строя из-за ошибки памяти? В частности, как узнать, была ли это исправимая или неисправимая ошибка, и на каком DIMM она произошла?

Ловушки / сообщения SNMP - лучший выбор для получения упреждающего уведомления об ошибке памяти / DIMM. Такие продукты, как HP Systems Insight Manager, HP OpenView и Dell OpenManage, предлагают несколько настраиваемых правил для пересылки сообщений SNMP на электронные письма / смс / пейджеры, чтобы вы точно знали, когда происходит ошибка или ухудшение памяти.

Если ваш сервер хоть сколько-нибудь хорош, у него есть комбинация BIOS и BMC, которая отслеживает эти ошибки и регистрирует их в IPMI, чтобы вы могли их видеть. Обычно ваш сервер останавливается из-за неисправимой ошибки ECC, BIOS берет на себя прерывание SMI и регистрирует его в BMC. Затем он возобновляет работу ОС, которой нет ничего лучше, чем обычная перезагрузка (иногда можно убить процесс и продолжить). Журнал IPMI SEL должен быть признаком ошибки ECC.

Если на вашем сервере нет хорошего BMC / BIOS, вы можете прибегнуть к использованию загруженного аварийного ядра, на которое ядро ​​хоста перейдет, и оно может регистрировать полную трассировку стека и журнал dmesg для последующего просмотра, чтобы получить эту информацию. Он будет зарегистрирован в dmesg разбитого ядра с жирными буквами «HARDWARE ERROR».

просто используйте memtest! Он скажет вам, с каким именно DIMM возникли проблемы. http://www.memtest86.com/

Проверьте собственную диагностику сервера. Поскольку вы абсолютно ничего не сказали нам о сервере, это самый подробный ответ, который я могу дать.