Я запускаю сервер ubuntu 14.04 на Supermicro X10SLM-F / Xeon E3-1271 v3
Память: SuperTalent 32 ГБ DDR3 1600 ECC
Примерно каждые 4 дня в журналах Ubuntu будет отображаться следующее:
{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]: Error 0, type: corrected
{1}[Hardware Error]: fru_text: CorrectedErr
{1}[Hardware Error]: section_type: memory error
[Firmware Warn]: error section length is too small
Сразу после этого сервер перезагружается в режиме "выключения и цикла".
Когда я смотрю в журнал событий BIOS, я вижу следующее:
DATE TIME ERROR CODE SEVERITY
06/13/15 13:13:38 Smbios 0x02 P1-DIMMB2
И описание ошибки:
Single Bit ECC Memory Error
ipmitool в Ubuntu показывает это:
ipmitool sel elist
...
...
1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8
Несколько вопросов:
Если память ECC самокорректируется, почему машина перезагружается?
У меня, может быть, отсутствует какая-то настройка в BIOS, которая остановит перезагрузку коробки?
Очевидно, это проблема с картой памяти или проблема со слотом или с процессором?
Как остановить перезагрузку сервера?
Спасибо за любой совет.
Система не должна перезагружаться при исправимой ошибке памяти. Вы видите дополнительную информацию / шаблон через ipmitool sel elist
? Сторожевой таймер BMC может перезагрузить систему, проверьте, включен ли он через ipmitool mc watchdog get
. Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и если проблема появится снова, возможно, неисправен слот памяти.
X10SLM-F используемая вами оперативная память отсутствует в списке протестированных модулей оперативной памяти - если у вас есть возможность, замените все планки памяти в «проблемной» системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.
Что касается настроек CMOS, вы можете использовать Supermicro SUM
при условии, что у вас установлены ключи SUM, чтобы сбросить настройки BIOS со всех систем, затем vimdiff
их, чтобы увидеть, отличается ли какой-либо параметр CMOS для систем, которые регулярно перезагружаются, от систем, которые этого не делают.
sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf
Я видел ту же проблему с этой платой версии 1.02. Я думаю, у него есть конкретная проблема. Я покупаю много плат SM, и они обычно довольно хороши. Я думаю, что с этой платой проблема, если все модули DIMMS заполнены. Я использую окна, например, у меня синий экран.
Попробуйте просто использовать 16 ГБ (всего 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но помогло бы диагностировать странное поведение. Я даже отправил плату обратно в SM, и они сказали, что все в порядке, возможно, они не тестировали с 4 модулями DIMM.
Это аппаратное обеспечение Supermicro, поэтому оно недорогое и в нем отсутствует отполированность и интеграция, как у Dell, HP или IBM ...
ОЗУ ECC исправляет ошибки, но есть вероятность превышения порога. Рассматриваемый модуль DIMM, вероятно, выходит из строя, и вам следует запланировать его замену.
Вы можете попытаться идентифицировать модуль по слоту и заменить его. Так как это происходит часто, проблему будет легко определить.
Также посмотрите на Связанные вопросы справа от этого вопроса.