Назад | Перейти на главную страницу

«Физический уровень Intel QPI обнаружил внутриполосный сброс QPI, но прервал инициализацию»

У меня есть Linux-сервер, на котором зарегистрирована следующая ошибка mcelog:

Hardware event. This is not a software error.
MCE 0
CPU 0 BANK 20
MISC 800000
TIME 1476167381 Tue Oct 11 06:29:41 2016
MCG status:
MCi status:
Corrected error
MCi_MISC register valid
MCA: BUS error: 0 0 Level-3 Generic Generic Other-transaction
Request-did-not-timeout
QPI:
Intel QPI physical layer detected a QPI in-band reset but aborted
initialization
STATUS 8800004000200e0f MCGSTATUS 0
MCGCAP 7000c16 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 63

Я могу найти ссылку на эту ошибку в документации по системному программированию Intel и в коде мониторинга на github, но ничего не объясняет причину, следствие и предлагаемые действия. Я прочитал последние примечания к обновлению микрокода, чтобы узнать, упоминается ли оно, но ничего не могу найти.

Ошибка может быть единовременной «космической радиацией» или «несобытием», которое следует игнорировать, но может ли кто-нибудь уточнить, руководствуясь реальным руководством на уровне системного администратора?

Спасибо

Я предполагаю, что это пара процессоров E5-2640v4 (v # в конце имеет значение).

Вам необходимо проверить список ошибок процессора (найдите документы "обновления спецификации" для вашего конкретного процессора), поскольку на многих моделях процессоров есть несколько ошибок, связанных с проблемами QPI ...

Хорошо: http://www.intel.com/content/dam/www/public/us/en/documents/specification-updates/xeon-e5-v4-spec-update.pdf не перечисляет какие-либо ошибки, которые могли бы привести к такому поведению QPI. У вас может быть аппаратный дефект или вы столкнулись с неуказанными в списке ошибками (более распространенными, чем вы думаете).

Тем не менее, Supermicro - абсолютное дерьмо в поддержании своего BIOS в актуальном состоянии (у них все еще есть возмутительное заявление о том, что никогда не обновлять ваш BIOS на своих страницах поддержки), поэтому мы можем с уверенностью предположить, что в нем будут устаревшие компоненты прошивки платформы, такие как микрокод. обновления и байт-код настройки платформы.

Итак, вы все еще можете надеяться, что обновление прошивки поможет. Как и ожидалось от Supermicro, даже в последней версии BIOS для этой материнской платы установлено слишком старое обновление микрокода, ниже минимальной версии, которую рекомендуется использовать при работе с Linux (вам нужна как минимум версия 0x0b00001d от 06.06.2016). Пожалуйста, установите пакет обновления микрокода для вашего дистрибутива (должен быть основан на версии Intel 20160714 или новее), это может помочь.

Поскольку поддержка supermicro обычно неплохо справляется с проблемами, вызванными их шуткой о жизненном цикле управления микропрограммным обеспечением сервера / рабочей станции. Сообщите им о проблеме напрямую и запросите бета-версию BIOS с обновленным микропрограммным обеспечением (микрокод процессора, набор микросхем, микропрограммное обеспечение ME / AMT / TPM и компоненты настройки платформы). Они могут вместо этого сказать вам RMA плату, если сочтут это более вероятным аппаратным дефектом.