Я добавил новую память HP к серверу, чтобы увеличить ее с 8 до 32 ГБ. Теперь это сообщение об ошибке появляется в / var / log / messages каждые несколько секунд.
Jan 8 20:13:08 vmware01 kernel: EDAC MC0: CE row 2, channel 2,
label "": (Branch=1 DRAM-Bank=6 RDWR=Read RAS=13788 CAS=2840,
CE Err=0x2000 (Correctable Non-Mirrored Demand Data ECC))
Я искал сообщение об ошибке в Google, и мне не повезло. Кто-нибудь знает, что это значит и как исправить?
И BIOS, и операционная система видят все 32 ГБ.
Любая помощь будет принята с благодарностью.
Недавно у меня была эта проблема с блейд-сервером IBM с процессором AMD. Это 64-битный blade-сервер, который я использовал в течение многих лет с 8 ГБ и 32-битным RedHat 3, что означает, что ОС использовала только 4 ГБ. Я обновил его до 64-битной RH 4 и начал получать очень похожие ошибки. В исследовании, которое я обнаружил, говорится, что отчеты EDAC в ОС появились в какой-то момент в версии 4, около 4.5.
Это означало, что я не знал, был ли это раздел 4-8 ГБ или просто ОС, сообщающая о проблеме, поэтому я пошел в BIOS, чтобы запустить тесты. Базовые тесты не выявили ошибок, но расширенные тесты, выполнение которых занимает несколько часов, в конечном итоге выявили проблему. Вращение разных модулей ОЗУ в разные слоты показало, что 2 из 4 моих плохих и тест завершился, когда обнаружил первый. Размещение в машине 2 ГБ с 4 различными модулями позволило машине нормально работать.
В течение многих лет машина не перезагружалась без полного отключения питания, что не было проблемой для сервера базы данных высокой доступности, но я тоже сообщил о проблеме. IBM была достаточно любезна, чтобы изменить мои заявленные 2 модуля ОЗУ и всю материнскую плату, поэтому я не могу поклясться, что ОЗУ исправило это.
Итог: внимательно посмотрите на свою оперативную память. Вы можете попробовать проверить загрузочную RAM, например, диск ОС. Похоже, что стандартные программы тестирования ОЗУ 32-разрядные, поэтому они не будут тестировать более 4 ГБ. Диск с 64-разрядной ОС может содержать диск, который будет.
Сообщение об ошибке в основном означает, что установленная вами память неисправна. Система обнаружила, что память повреждена, и ECC смог исправить однобитовую ошибку и предупредил ОС о том, что память неисправна.
Речь идет о DRAM в банке 6 (скорее всего, двухканальная память), поэтому ищите в этом месте неисправный RAM.