После скачка загрузки ЦП хост-сервер для VMWare ESXi 5.5 перестал отвечать на запросы DRAC, сети и членства в кластере.
Хост представляет собой блейд-модуль Dell PowerEdge M820 в шасси Dell M1000e с четырьмя процессорами Xeon E5-4620 и 128 ГБ ОЗУ и локальными твердотельными накопителями в RAID 6.
Все виртуальные машины - это Server 2008 R2. Есть один сервер SQL, который использует SSD RAID для данных. В противном случае виртуальные машины хранятся в QNAP с каналом 10 Гбит.
Ресурсы не зарезервированы.
Никакие аппаратные отказы никогда не регистрировались и не указывались на блейд-модуле или QNAP.
Чтобы сервер снова заработал, необходимо было выполнить холодную перезагрузку с DRAC M1000e.
Это похоже на сбой VMWare, который жестко заблокировал оборудование, однако предварительная блокировка журналов отсутствует за 3 месяца до его удаления.
После перезапуска -VMWare и серверное оборудование не сообщали и не указывали на какие-либо проблемы.
Кто-нибудь еще испытывал что-нибудь подобное? Есть идеи, мысли, предложения?
Вероятно, это проблема с вашими виртуальными машинами Windows. Можете ли вы сказать нам, какие сетевые драйверы используют виртуальные машины Windows? Intel e1000? Intel e1000e? VMware vmxnet3?
Если они не используют VMware vmxnet3, вы столкнетесь с ужасной ошибкой, которая проявляется в сбоях хоста (PSOD). См. Соответствующую статью базы знаний № 2059053.
Вот след сбоя на хосте 5.5 ESXi после интенсивной сетевой активности между Windows Server 2008R2 и виртуальной машиной Windows Server 2012.
Исправление заключается в переходе на драйвер vmxnet3. Это укусит многих, потому что e1000 / e1000e являются значениями по умолчанию при создании виртуальных машин Windows.
обратите внимание на ссылки "e1000" в трассировке ...
На вашем месте я бы открыл тикет в Dell и запустил всю диагностику. Они, вероятно, посоветуют вам обновить все прошивки до последней версии, если вы еще этого не сделали. В целом это хорошая идея.
Я бы также открыл заявку в VMware по той же проблеме.
Возможно, вы столкнулись с ошибкой ОС или отказом оборудования. В качестве альтернативы вы можете просто пометить эту систему как «возможную проблему» и подождать, чтобы увидеть, повторится ли она снова.
/ Edit - или вы можете послушать Эда и / или проверить базу знаний VMware.