Назад | Перейти на главную страницу

RHEL: Что происходит, когда память начинает выходить из строя?

Я получаю предупреждения ecc от ОЗУ сервера. Это довольно старая машина, поэтому на эти детали нет гарантии.

Если бы это была Windows, я бы ожидал увидеть BSOD.

Чего мне ожидать от RH5.x?

В системе RHEL вы увидите накопление ошибок в выходных данных кольцевого буфера ядра (dmesg), так же как /var/log/messages. При превышении порога ECC приложения могут просто аварийно завершить работу. Сервер может выполнить «горячую» загрузку. У вас может быть паника ядра. Журнал исключений проверки машины будет иметь индикаторы. Я даже видел случаи, когда система перезагружалась и отключает плохой DIMM.

Если это корпоративное серверное оборудование, журнал событий системы может заполниться ошибками. Сторожевой таймер сервера может выполнить тайм-аут и вызвать холодную перезагрузку системы.

На этом этапе вы знаете, что у вас есть проблема ... Поэтому правильное решение - заменить неисправный модуль DIMM. В большинстве случаев режим отказа не изящный, поэтому лучше избегать боли. Радуйтесь, что ОЗУ ECC выдало вам предупреждения.

Эквивалент BSOD для Linux - это паника ядра. Когда ядро ​​обнаруживает ситуацию, с которой действительно не может справиться (например, ошибка повреждения файловой системы, приводящая к таким состояниям, как попытка освободить уже свободный индексный дескриптор), оно выводит предупреждения о панике практически везде, обычно через системный журнал, и останавливает процессор (ы).

Если память выйдет из строя необнаружимым образом, то рано или поздно ядро ​​столкнется с таким состоянием и паникует.

Я поискал в Google примеры и нашел много; тот в http://www.google.co.uk/imgres?imgurl=https://www.virtualbox.org/raw-attachment/ticket/9305/rec.jpeg&imgrefurl=https://www.virtualbox.org/ticket/ 9305 & ч = 908 & ш = 1229 & SZ = 248 & tbnid = JzS7Yn9aNlPUXM: & tbnh = 90 & tbnw = 122 & масштабирование = 1 & USG = __ gtpppLj2_g4OvWr-d5QA8DlK7a0 = & DocId = IqDtDvjAV31hEM & са = Х & е = zcDmUcORFsao0QXrzYGADA & вед = 0CEwQ9QEwBA & Dur = 1342 # imgdii = JzS7Yn9aNlPUXM% 3A% 3BAjx9NoISgkV-XM% 3BJzS7Yn9aNlPUXM% 3A хороший образец жанра; вы можете увидеть строку с отметкой времени 7.568856, в которой ядро ​​официально объявляет о своей сдаче.

Также обратите внимание, что он не синхронизирует файловые системы, что является разумной мерой предосторожности, когда он больше не может быть уверен в своей целостности. Это может затруднить отладку этих условий, так как отсутствие синхронизации означает, что сообщение журнала никогда не попадет в локальные файлы журнала. Это, в свою очередь, является одной из основных причин, по которой я использую удаленное ведение системного журнала: ошибка по-прежнему будет отправляться на удаленный лог-хост, и ее часто можно найти там.