Назад | Перейти на главную страницу

Коды ошибок MCE / розовый экран - должны ли они вызывать беспокойство?

Поэтому я недавно купил систему серверного уровня вместе со всей периферией серверного уровня. У меня лицензия на ESXi 6, и у меня установлены все последние исправления. Система работает около 2 недель, и внезапно у меня произошел полный сбой.

Я интерпретировал этот код ошибки как «Ошибка внутреннего таймера». Я отправил информацию в SuperMicro, но, честно говоря, я пока не очень уверен в их ответах. Моя интерпретация заключалась в том, что система просто не должна падать - по той причине, что это Xeon с памятью ECC, работающей под управлением ESXi.

Возможно ли, что это была какая-то разовая ошибка и больше не повторится? Как бы вы с этим справились? Ищу совета от тех, кто видел подобные ошибки и что они в итоге делают.

Да, это повод для беспокойства. Сервер разбился!

Проверьте оперативную память и контакты сокета процессора (если вы собрали сервер вручную).

Вот и вся информация, которую вы получите. Вы можете обратиться в службу поддержки VMware, и они проанализируют аварийный дамп за вас.

Вы видите эту ошибку (MCE, исключение проверки машины) именно потому, что у нее есть ОЗУ ECC.

У вас где-то сломано оборудование, скорее всего, карта памяти, но, возможно, один или несколько процессоров (возможно, CPU 10?) Или что-то среднее. Закажите контракт на поддержку.

Это могут быть и другие части оборудования, но каждый раз, когда я видел это, это была неисправная ОЗУ ECC, имеющая несколько битовых ошибок. Если MCE расшифровывается как «ошибка внутреннего таймера», следующая наиболее вероятная причина - неисправный процессор или материнская плата.