Назад | Перейти на главную страницу

Ошибка Debian: внутренняя ошибка edac mc0

У меня проблема на последнем сервере Debian. Каждые секунды на моем экране появляется эта ошибка:

EDAC MC0: INTERNAL ERROR: csrow value is out of range (7 >= 4)

edac-utils дает следующее:

mc0: 0 Uncorrected Errors with no DIMM info
mc0: 44747 Corrected Errors with no DIMM info
mc0: csrow0: 15330 Uncorrected Errors
mc0: csrow0: mc#0csrow#0channel#0: 0 Corrected Errors
mc0: csrow0: mc#0csrow#2channel#0: 0 Corrected Errors
mc0: csrow2: 0 Uncorrected Errors
mc0: csrow2: mc#0csrow#1channel#0: 0 Corrected Errors
mc0: csrow2: mc#0csrow#3channel#0: 0 Corrected Errors
mc0: csrow3: 0 Uncorrected Errors
mc0: csrow3: mc#0csrow#1channel#1: 0 Corrected Errors
mc0: csrow3: mc#0csrow#3channel#1: 0 Corrected Errors

На Мемтест ничего нет.

В чем проблема? Как это решить?

Спасибо.

EDAC удовлетворяет большинство (всех?) Банков памяти, в то время как Memtest не показывает ошибок, скорее всего, означает, что ваша ECC RAM в порядке, но не была правильно инициализирована BIOS при загрузке.

Чтобы инициализировать бит ECC, память должна быть записана, прежде чем ее можно будет использовать. Обычно это делается через BIOS, но на некоторых материнских платах (например, ASUS P5B) этот шаг пропускается, если включена «Быстрая загрузка». Таким образом, при каждом доступе к неинициализированным ячейкам вы будете получать ошибки EDAC, при этом сервер будет работать без проблем.

Попробуйте отключить быструю загрузку в BIOS и посмотрите, поможет ли это.

Если у вас нет физического доступа к оборудованию или ваш BIOS не предлагает вам возможность отключить функцию быстрой загрузки - есть другой способ инициализации памяти до загрузки модуля EDAC. Добавить memtest=1 в командную строку ядра в /etc/default/grub и беги update-grub для обновления конфигурации (я предполагаю, что вы используете Debian / Ubuntu). Ядро будет использовать свой встроенный тестер памяти при загрузке, и как часть тестов будет записана вся память, что приведет к инициализации битов ECC.

memtest может не отображать проблему, но я вижу mc0: csrow0: 15330 Uncorrected Errors в том журнале. Похоже, у вас плохая оперативная память. В зависимости от платы вы сможете найти точную неисправную палку и заменить ее.