Я получаю предупреждения ecc от ОЗУ сервера. Это довольно старая машина, поэтому на эти детали нет гарантии.
Если бы это была Windows, я бы ожидал увидеть BSOD.
Чего мне ожидать от RH5.x?
В системе RHEL вы увидите накопление ошибок в выходных данных кольцевого буфера ядра (dmesg
), так же как /var/log/messages
. При превышении порога ECC приложения могут просто аварийно завершить работу. Сервер может выполнить «горячую» загрузку. У вас может быть паника ядра. Журнал исключений проверки машины будет иметь индикаторы. Я даже видел случаи, когда система перезагружалась и отключает плохой DIMM.
Если это корпоративное серверное оборудование, журнал событий системы может заполниться ошибками. Сторожевой таймер сервера может выполнить тайм-аут и вызвать холодную перезагрузку системы.
На этом этапе вы знаете, что у вас есть проблема ... Поэтому правильное решение - заменить неисправный модуль DIMM. В большинстве случаев режим отказа не изящный, поэтому лучше избегать боли. Радуйтесь, что ОЗУ ECC выдало вам предупреждения.
Эквивалент BSOD для Linux - это паника ядра. Когда ядро обнаруживает ситуацию, с которой действительно не может справиться (например, ошибка повреждения файловой системы, приводящая к таким состояниям, как попытка освободить уже свободный индексный дескриптор), оно выводит предупреждения о панике практически везде, обычно через системный журнал, и останавливает процессор (ы).
Если память выйдет из строя необнаружимым образом, то рано или поздно ядро столкнется с таким состоянием и паникует.
Я поискал в Google примеры и нашел много; тот в http://www.google.co.uk/imgres?imgurl=https://www.virtualbox.org/raw-attachment/ticket/9305/rec.jpeg&imgrefurl=https://www.virtualbox.org/ticket/ 9305 & ч = 908 & ш = 1229 & SZ = 248 & tbnid = JzS7Yn9aNlPUXM: & tbnh = 90 & tbnw = 122 & масштабирование = 1 & USG = __ gtpppLj2_g4OvWr-d5QA8DlK7a0 = & DocId = IqDtDvjAV31hEM & са = Х & е = zcDmUcORFsao0QXrzYGADA & вед = 0CEwQ9QEwBA & Dur = 1342 # imgdii = JzS7Yn9aNlPUXM% 3A% 3BAjx9NoISgkV-XM% 3BJzS7Yn9aNlPUXM% 3A хороший образец жанра; вы можете увидеть строку с отметкой времени 7.568856, в которой ядро официально объявляет о своей сдаче.
Также обратите внимание, что он не синхронизирует файловые системы, что является разумной мерой предосторожности, когда он больше не может быть уверен в своей целостности. Это может затруднить отладку этих условий, так как отсутствие синхронизации означает, что сообщение журнала никогда не попадет в локальные файлы журнала. Это, в свою очередь, является одной из основных причин, по которой я использую удаленное ведение системного журнала: ошибка по-прежнему будет отправляться на удаленный лог-хост, и ее часто можно найти там.