На сервере linux (8x Quad-Core AMD 8378) я получаю следующие ошибки:
[Hardware Error]: MC4_STATUS[-|CE|MiscV|-|AddrV|CECC]: 0x9c294c00001d018b
[Hardware Error]: Northbridge Error (node 4): ECC error in L3 cache tag.
[Hardware Error]: cache level: L3/GEN, tx: GEN, mem-tx: SNP
[Hardware Error]: Machine check events logged
Это происходило трижды за последний месяц, но никогда раньше (сервер работает 3 года).
Судя по быстрому поиску в гугле, это серьезное дело.
Однако технический специалист по поддержке поставщика сказал:
Я видел эти ошибки МНОГО раз, и если вы не разгоняете свой процессор - или у вас был сбой вентилятора или что-то подобное - это ОЧЕНЬ маловероятно, что это проблема процессора. Более вероятно, что ядро неверно сообщает об ошибке.
Итак - это критическая ошибка, и я должен заказывать новые детали (заменить процессор?) Или игнорировать ее?
Большое спасибо.
Лучшая практика: по возможности держите собственные запасные части.
Что касается исключений машинной проверки, они сообщаются аппаратно; ядро просто передает вам сообщение, чтобы вы могли принять меры до того, как аппаратная проблема выйдет из-под контроля и приведет к настоящей катастрофе.
Единственный случай, который мне удалось найти, когда ядро "неверно сообщает" об исключении проверки машины, был следующий. В таком случае, проблема была в процессоре, а не в ядре.
Процессоры Intel Xeon семейства E7 имеют проблему, из-за которой некоторые переходы c-состояний могут вызывать сообщение пользователю из банка MCE 6 о ложных исправимых ошибках Machine Check Exception (MCE). В некоторых системах семейства процессоров E7 это приводило к "потоку" ошибок MCE. Этот патч отключает отчеты об ошибках MCE для банка 6.
Итог: мне кажется, что поставщик пытается избежать замены неисправного оборудования.
На корпоративных серверах мы справились с этим следующим образом: попросите поставщика заменить, если ошибки слишком велики или если они повторяются неделю за неделей. Собственно, служба мониторинга событий инициировала это сама. Никаких вопросов не было задано.
При переходе на x86 мы также получили истории о путанице EDAC / MCE и т. Д. Если ошибки продолжают появляться, необходимо заменить оборудование.
(Также маловероятно, что это связано с большими солнечными событиями. Это возможно, но оборудование ПК нестабильно, и продавцы не хотят что-то заменять, что является гораздо более обычным явлением)