Назад | Перейти на главную страницу

Что делать в ответ на повторные уведомления об ошибках DRAM ECC для той же области памяти?

Я проснулся сегодня утром и понял, что для меня впервые; одна из моих систем зарегистрировала DRAM ECC error уведомления. Фактически, их три, поскольку, насколько я могу судить, одно и то же место в памяти (очевидно, что система не фактически с именем localhost):

Aug 31 05:00:46 localhost kernel: [719099.816034] [Hardware Error]: CPU:0   MC4_STATUS[-|CE|MiscV|-|AddrV|-|-|CECC]: 0x9c6c40006b080a13
Aug 31 05:00:46 localhost kernel: [719099.816046] [Hardware Error]:         MC4_ADDR: 0x0000000641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816051] [Hardware Error]: Northbridge Error (node 0): DRAM ECC error detected on the NB.
Aug 31 05:00:46 localhost kernel: [719099.816059] EDAC amd64 MC0: CE ERROR_ADDRESS= 0x641f49d20
Aug 31 05:00:46 localhost kernel: [719099.816070] EDAC MC0: CE page 0x641f49, offset 0xd20, grain 0, syndrome 0x6bd8, row 2, channel 0, label "": amd64_edac
Aug 31 05:00:46 localhost kernel: [719099.816075] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: RES (no timeout)

Вышеупомянутое сопровождалось идентичным уведомлением в системное время 05:10:46 (719699.8160), а затем еще один на 05:20:46 (720299.8160), который также Over на CPU:0 MC4_STATUS линия (статус 0xdc6c40006b080813). С тех пор система работает стабильно, больше ошибок не регистрируется. Системная активность нормальная, и рассматриваемая система работала с ОЗУ ECC с 2014 года, но никогда не регистрировала никаких ошибок ECC.

Я бы не стал слишком беспокоиться о единственной исправляемой ошибке ECC. Почти ровно десять минут (фактически, до нескольких микросекунд) между регистрируемыми ошибками мог быть просто для очистки RAM каждые десять минут; к сожалению, в этой конкретной системе интервал очистки не отображается как настройка. Однако три последовательные ошибки в той же ячейке памяти (такое же значение для CE ERROR_ADDRESS) меня немного беспокоит.

Обновить: Рассматриваемый хост зарегистрировал еще несколько с тех пор, как я изначально разместил этот вопрос, все с тем же значением для CE ERROR_ADDRESS.

Насколько серьезно я должен к этому относиться? Какой хороший ответ; заказать замену оперативной памяти и запланировать ее установку как можно скорее, рассматривать это как кратковременный сбой или быть готовым заменить оперативную память, если это произойдет снова, но никаких конкретных действий прямо сейчас?

ОЗУ ECC обычно используется на критически важных серверах. Система сообщает об отказе оборудования. Если это не критическая система, и вы не против, чтобы все происходящее через нее могло привести к повреждению, обязательно подождите и посмотрите, что произойдет, но если вы заботитесь о своих данных больше, чем стоимость ОЗУ, замените неисправную ОЗУ как можно скорее.

Я проснулся сегодня утром и понял, что для меня впервые; одна из моих систем регистрировала уведомления об ошибках DRAM ECC. Три из них, по сути, для ... Я бы не стал слишком беспокоиться о единственной исправляемой ошибке ECC. Почти точно десять минут (фактически до нескольких микросекунд) между регистрируемыми ошибками может быть простая очистка RAM каждые десять минут; к сожалению, в этой конкретной системе интервал очистки не отображается как настройка.

Веб-страница Википедии на Очистка памяти говорит:

"Более 8% модулей DIMM испытывают не менее один исправимая ошибка в год. Это может быть проблемой для памяти на основе DRAM и SRAM. Вероятность программной ошибки для любого отдельного бита памяти очень мала. ".

"Чтобы не мешать регулярным запросам памяти от ЦП и, таким образом, предотвратить снижение производительности, очистка обычно выполняется только в периоды простоя. Поскольку очистка состоит из обычных операций чтения и записи, она может увеличить энергопотребление памяти по сравнению с операцией без очистки. Следовательно, чистка выполняется не постоянно, а периодически. Для многих серверов период очистки можно настроить в программе настройки BIOS.

Эта веб-страница содержит ссылку на руководство по материнской плате SuperMicro X9SRA, в котором объясняется интервал очистки:

"Патрульный скраб
Patrol Scrubbing - это процесс, который позволяет ЦП исправлять исправимые ошибки памяти, обнаруженные в модуле памяти, и отправлять исправления запрашивающей стороне (исходному источнику). Когда для этого элемента установлено значение Включено, северный мост будет читать и записывать обратно одну строку кэша. каждые 16К циклов, если нет никакой задержки, вызванной внутренней обработкой. При использовании этого метода примерно 64 ГБ памяти за северным мостом будет очищаться каждый раз. день. Возможные варианты: Включено и Отключено. ".

Таким образом, причина не в чистке. Это возможно что есть неисправный бит. Хотя неисправность может возникнуть внезапно, кажется странным, что она уходит и возвращается, особенно когда это происходит так часто.

«Насколько серьезно я должен отнестись к этому? Какой хороший ответ; немедленно закажите замену ОЗУ и запланируйте установку как можно скорее, расценивайте это как кратковременный сбой или будьте готовы заменить ОЗУ, если это произойдет снова, но никаких конкретных действий прямо сейчас ? "

Павел Мачек, придумавший нохаммер модуль ядра говорит:

«Довольно сложно сделать удар молотком случайно, поэтому, если вы попадаете в него, кто-то, вероятно, делает это специально ... Что ж, разница между космическими лучами и молотком составляет более трех порядков величины. Ожидаются космические лучи IIRC. вызвать 2 битных переворота в год ... молоток может делать битфлип в 10 минут, и это старая версия, а не одна из оптимизированных. ".

Вы можете поменять модули ОЗУ и посмотреть, следует ли отчет об ошибке за микросхемой, привязан ли он к области памяти или возникает в другом месте.

HPE рекомендует (для неисправного модуля памяти):

"СИМПТОМ: в журналах ОС обнаружено следующее сообщение об ошибке:

host1 kernel: Northbridge Error (node X): DRAM ECC error detected on the NB.

ИСПРАВИТЬ:
1. Определите номер модуля памяти, который вышел из строя (если упоминается в ошибке).
2. Проверьте IML на наличие ошибок, связанных с модулем памяти. Ex Proc x слот x
3. Обновите BIOS системы.
4. Если ошибок не обнаружено, запустите диагностику и замените модуль памяти (5-6 циклов диагностики памяти для изоляции модуля памяти) »

Предлагаемый курс действий:

  • Переключение ОЗУ в его гнездах скажет вам, является ли это конкретным модулем ОЗУ или неисправна другая схема.

  • Пока вы не получаете больше одной битовой ошибки каждые несколько дней, нет паники (спешки).

  • Если вас бьют каждые 10 минут, вы мощь быть забитым.

Смотрите также: "Защита от RowHammer в ядре" и "ECCploit: память ECC все-таки уязвима для атак Rowhammer". Для процессоров ARM:"Патчи Android GuardION для смягчения атак Rowhammer на основе DMA на ARM".

Я бы посоветовал запустить memtest86 +

http://www.memtest.org

Он также включен в некоторые дистрибутивы как стандартный пакет.

Это может подтвердить ваше подозрение на неисправный модуль памяти.