Назад | Перейти на главную страницу

ECC CE (Исправляемая ошибка) происходит точно каждые 5 минут

На одном из наших вычислительных узлов я получаю ECC CE (исправимые ошибки). Что немного странно, так это то, что ошибки не являются массовыми, а возникают только раз в 5 минут.

messages.log:

May  7 11:43:37 armada9 kernel: [22220081.676263] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41daad offset:0xc30 grain:0 syndrome:0x2254)
May  7 11:48:37 armada9 kernel: [22220381.919057] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x407bb8 offset:0x150 grain:0 syndrome:0x33a8)
May  7 11:53:37 armada9 kernel: [22220682.161798] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x41e6bd offset:0x6a0 grain:0 syndrome:0x33a8)
May  7 11:58:37 armada9 kernel: [22220982.404501] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x427c14 offset:0x880 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)

Пример записи системного журнала:

May  7 12:03:37 armada9 kernel: [22221282.647114] [Hardware Error]: MC4 Error (node 1): DRAM ECC error detected on the NB.
May  7 12:03:37 armada9 kernel: [22221282.647210] EDAC MC1: 1 CE on unknown memory (csrow:4 channel:1 page:0x426e88 offset:0x830 grain:0 syndrome:0x33a8)
May  7 12:03:37 armada9 kernel: [22221282.647215] [Hardware Error]: Error Status: Corrected error, no action required.
May  7 12:03:37 armada9 kernel: [22221282.647299] [Hardware Error]: CPU:6 (10:8:0) MC4_STATUS[Over|CE|MiscV|-|AddrV|CECC]: 0xdc54400033080813
May  7 12:03:37 armada9 kernel: [22221282.647393] [Hardware Error]: MC4_ADDR: 0x0000000426e88830
May  7 12:03:37 armada9 kernel: [22221282.647443] [Hardware Error]: cache level: L3/GEN, mem/io: MEM, mem-tx: RD, part-proc: SRC (no timeout)

Еще меня сбивает с толку то, что cat /sys/devices/system/edac/mc/mc*/csrow*/ce_count показывает 4x 0. dmidecode -t memory | grep Size отчетов есть 8x 2GB кости установлены. Но cat /sys/devices/system/edac/mc/mc*/csrow*/size_mb показывает 4x 4096. Я предполагаю, что микросхемы памяти одноранговые, и пары игральных костей связаны. Это правильное мышление? Тем не менее, это не объясняет, почему количество ошибок 0.

Это продолжается уже 2-3 дня. Все ошибки сообщались как исправленные, но это довольно раздражает и, вероятно, небезопасно.

Умирает ли оперативная память, и мне повезло, что там оказался какой-то системный процесс (а не вычисления)? Я не думаю, что у меня что-то запускается каждые 5 минут, но, возможно, некоторые инструменты регистрации работают.

Или причина может быть в другом?

Важно сопоставить csrow и канал с физическим слотом / DIMM и заменить как можно скорее. По моему опыту, вы начнете получать все больше и больше ошибок, но все зависит от того, насколько быстро чип выходит из строя, я видел, как он прогрессировал от нескольких ошибок в день до мертвых на следующий день, или он мог делать это в течение нескольких месяцев или больше (все зависит от вашей загруженности). В конце концов, ваша консоль будет заполнена ими, и в конечном итоге это приведет к UE (неисправимой ошибке), и ваш сервер выйдет из строя, а DIMM станет непригодным для использования.

Еще одна важная вещь заключается в том, что если ваш BIOS (и большинство серверных BIOS это делают) обнаруживает несколько битовых сбоев, он может отключить этот слот DIMM. Не стирайте / не стирайте и не сбрасывайте включенные модули DIMM в BIOS, иначе ваш сервер, вероятно, не загрузится вообще (как в случае отсутствия POST), и если вы не вспомните, какой модуль DIMM был помечен как плохой, вам придется удалять чип за чипом, пока он не загрузится, чтобы понять какой из них был плохим (большая проблема в корпоративной среде или в центре обработки данных). Кроме того, при замене модуля DIMM, помеченного как неисправный, вам, вероятно, придется повторно включить его или стереть запись о неисправном модуле DIMM из BIOS, чтобы его можно было распознать.

Похожая проблема возникла, когда я установил новые модули DIMM в свой PowerEdge R815. Я думал, что один из модулей DIMM плохой, но не знал, какой из 32 модулей DIMM это может быть. Оказалось, что ЖК-панель оборудования (и журнал оборудования) сообщила об ошибке и предоставила идентификатор слота DIMM. Когда я переустановил DIMM, ошибка исчезла - так что это не та ошибка, которую в конце концов можно было исправить с помощью ECC.