Назад | Перейти на главную страницу

Ошибки памяти ECC, вызывающие случайные перезагрузки сервера

Я запускаю сервер ubuntu 14.04 на Supermicro X10SLM-F / Xeon E3-1271 v3

Память: SuperTalent 32 ГБ DDR3 1600 ECC

Примерно каждые 4 дня в журналах Ubuntu будет отображаться следующее:

{1}[Hardware Error]: Hardware error from APEI Generic Hardware Error Source: 1
{1}[Hardware Error]: It has been corrected by h/w and requires no further action
{1}[Hardware Error]: event severity: corrected
{1}[Hardware Error]:  Error 0, type: corrected
{1}[Hardware Error]:  fru_text: CorrectedErr
{1}[Hardware Error]:   section_type: memory error
[Firmware Warn]: error section length is too small

Сразу после этого сервер перезагружается в режиме "выключения и цикла".

Когда я смотрю в журнал событий BIOS, я вижу следующее:

DATE            TIME           ERROR CODE      SEVERITY
06/13/15      13:13:38      Smbios 0x02         P1-DIMMB2

И описание ошибки:

Single Bit ECC Memory Error

ipmitool в Ubuntu показывает это:

ipmitool sel elist
...
...
  1a | 06/13/2015 | 13:13:39 | Memory | Correctable ECC | Asserted | CPU 0 DIMM 8
  1b | 06/13/2015 | 13:13:39 | Memory | Uncorrectable ECC | Asserted | CPU 0 DIMM 8

Несколько вопросов:

  1. Если память ECC самокорректируется, почему машина перезагружается?

  2. У меня, может быть, отсутствует какая-то настройка в BIOS, которая остановит перезагрузку коробки?

  3. Очевидно, это проблема с картой памяти или проблема со слотом или с процессором?

  4. Как остановить перезагрузку сервера?

Спасибо за любой совет.

Система не должна перезагружаться при исправимой ошибке памяти. Вы видите дополнительную информацию / шаблон через ipmitool sel elist ? Сторожевой таймер BMC может перезагрузить систему, проверьте, включен ли он через ipmitool mc watchdog get. Поскольку у вас уже есть информация о местонахождении неисправного модуля памяти, замените его, и если проблема появится снова, возможно, неисправен слот памяти.

X10SLM-F используемая вами оперативная память отсутствует в списке протестированных модулей оперативной памяти - если у вас есть возможность, замените все планки памяти в «проблемной» системе на эквивалентные, протестированные Supermicro. Также проверьте список поддерживаемых ОС для вашей версии Ubuntu.

Что касается настроек CMOS, вы можете использовать Supermicro SUMпри условии, что у вас установлены ключи SUM, чтобы сбросить настройки BIOS со всех систем, затем vimdiff их, чтобы увидеть, отличается ли какой-либо параметр CMOS для систем, которые регулярно перезагружаются, от систем, которые этого не делают.

sum -i <IP Address of the BMC> -u <BMC user> -p <BMC password> -c GetCurrentBiosCfg --file myconf.conf

Я видел ту же проблему с этой платой версии 1.02. Я думаю, у него есть конкретная проблема. Я покупаю много плат SM, и они обычно довольно хороши. Я думаю, что с этой платой проблема, если все модули DIMMS заполнены. Я использую окна, например, у меня синий экран.

Попробуйте просто использовать 16 ГБ (всего 2 слота), и я уверен, что проблема исчезнет. Я знаю, что это не решение, но помогло бы диагностировать странное поведение. Я даже отправил плату обратно в SM, и они сказали, что все в порядке, возможно, они не тестировали с 4 модулями DIMM.

Это аппаратное обеспечение Supermicro, поэтому оно недорогое и в нем отсутствует отполированность и интеграция, как у Dell, HP или IBM ...

ОЗУ ECC исправляет ошибки, но есть вероятность превышения порога. Рассматриваемый модуль DIMM, вероятно, выходит из строя, и вам следует запланировать его замену.

Вы можете попытаться идентифицировать модуль по слоту и заменить его. Так как это происходит часто, проблему будет легко определить.

Также посмотрите на Связанные вопросы справа от этого вопроса.