Поэтому я недавно купил систему серверного уровня вместе со всей периферией серверного уровня. У меня лицензия на ESXi 6, и у меня установлены все последние исправления. Система работает около 2 недель, и внезапно у меня произошел полный сбой.
Я интерпретировал этот код ошибки как «Ошибка внутреннего таймера». Я отправил информацию в SuperMicro, но, честно говоря, я пока не очень уверен в их ответах. Моя интерпретация заключалась в том, что система просто не должна падать - по той причине, что это Xeon с памятью ECC, работающей под управлением ESXi.
Возможно ли, что это была какая-то разовая ошибка и больше не повторится? Как бы вы с этим справились? Ищу совета от тех, кто видел подобные ошибки и что они в итоге делают.
Да, это повод для беспокойства. Сервер разбился!
Проверьте оперативную память и контакты сокета процессора (если вы собрали сервер вручную).
Вот и вся информация, которую вы получите. Вы можете обратиться в службу поддержки VMware, и они проанализируют аварийный дамп за вас.
Вы видите эту ошибку (MCE, исключение проверки машины) именно потому, что у нее есть ОЗУ ECC.
У вас где-то сломано оборудование, скорее всего, карта памяти, но, возможно, один или несколько процессоров (возможно, CPU 10?) Или что-то среднее. Закажите контракт на поддержку.
Это могут быть и другие части оборудования, но каждый раз, когда я видел это, это была неисправная ОЗУ ECC, имеющая несколько битовых ошибок. Если MCE расшифровывается как «ошибка внутреннего таймера», следующая наиболее вероятная причина - неисправный процессор или материнская плата.