Назад | Перейти на главную страницу

Насколько серьезно я должен относиться к предупреждениям об исправимых ошибках ECC?

У меня есть куча серверов Sun X2200-M2. Эти серверы имеют память ECC.

На некоторых из этих серверов я получаю предупреждения в eLOM о «обнаруженных исправимых ошибках ECC», например:

# ssh regress11 ipmitool sel elist
   1 | 05/20/2010 | 14:20:27 | Memory CPU0 DIMM2 | Correctable ECC | Asserted
   2 | 05/20/2010 | 14:33:47 | Memory CPU0 DIMM2 | Correctable ECC | Asserted

... некоторые чаще, чем другие.

Ядро в этой конкретной системе также выдает ошибки EDAC, хотя гораздо чаще, чем eLOM записывает события ECC:

EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x42a194, offset 0x60, grain 8, syndrome 0xf654, row 4, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error
EDAC k8 MC0: general bus error: participating processor(local node response), time-out(no timeout) memory transaction type(generic read), mem or i/o(mem access), cache level(generic)
MC0: CE page 0x48cb94, offset 0x10, grain 8, syndrome 0xf654, row 5, channel 1, label "": k8_edac
MC0: CE - no information available: k8_edac Error Overflow set
EDAC k8 MC0: extended error code: ECC chipkill x4 error

Теперь, если сервер обнаруживает некорректируемый ECC, система перезагружается, поэтому очевидно, что это плохо, и удаление / замена идентифицированной флешки или пары устраняет проблему.

Но я думаю, что если ошибка исправима, то немедленной проблемы нет - я могу рассматривать это как предупреждение и быть готовым вытащить палку / пару, если начнет возникать неисправимая ошибка?

Зависит от того, как часто вы получаете ошибку. По ряду причин ECC должен исправлять однобитовые ошибки в среднем примерно раз в год. Если вы получаете их значительно быстрее, чем это, или если это многобитные ошибки, вам следует беспокоиться (я бы заменил RAM как можно скорее).

Кроме того, ECC не идеален. Возможно, совокупная ошибка проходит ECC; это проявится как сбой ОС или аналогичная проблема.