Назад | Перейти на главную страницу

Пик блокировки ЦП VMware

После скачка загрузки ЦП хост-сервер для VMWare ESXi 5.5 перестал отвечать на запросы DRAC, сети и членства в кластере.

Хост представляет собой блейд-модуль Dell PowerEdge M820 в шасси Dell M1000e с четырьмя процессорами Xeon E5-4620 и 128 ГБ ОЗУ и локальными твердотельными накопителями в RAID 6.

Все виртуальные машины - это Server 2008 R2. Есть один сервер SQL, который использует SSD RAID для данных. В противном случае виртуальные машины хранятся в QNAP с каналом 10 Гбит.

Ресурсы не зарезервированы.

Никакие аппаратные отказы никогда не регистрировались и не указывались на блейд-модуле или QNAP.

Чтобы сервер снова заработал, необходимо было выполнить холодную перезагрузку с DRAC M1000e.

Это похоже на сбой VMWare, который жестко заблокировал оборудование, однако предварительная блокировка журналов отсутствует за 3 месяца до его удаления.

После перезапуска -VMWare и серверное оборудование не сообщали и не указывали на какие-либо проблемы.

Кто-нибудь еще испытывал что-нибудь подобное? Есть идеи, мысли, предложения?

Вероятно, это проблема с вашими виртуальными машинами Windows. Можете ли вы сказать нам, какие сетевые драйверы используют виртуальные машины Windows? Intel e1000? Intel e1000e? VMware vmxnet3?

Если они не используют VMware vmxnet3, вы столкнетесь с ужасной ошибкой, которая проявляется в сбоях хоста (PSOD). См. Соответствующую статью базы знаний № 2059053.

Вот след сбоя на хосте 5.5 ESXi после интенсивной сетевой активности между Windows Server 2008R2 и виртуальной машиной Windows Server 2012.

Исправление заключается в переходе на драйвер vmxnet3. Это укусит многих, потому что e1000 / e1000e являются значениями по умолчанию при создании виртуальных машин Windows.

обратите внимание на ссылки "e1000" в трассировке ...

На вашем месте я бы открыл тикет в Dell и запустил всю диагностику. Они, вероятно, посоветуют вам обновить все прошивки до последней версии, если вы еще этого не сделали. В целом это хорошая идея.

Я бы также открыл заявку в VMware по той же проблеме.

Возможно, вы столкнулись с ошибкой ОС или отказом оборудования. В качестве альтернативы вы можете просто пометить эту систему как «возможную проблему» и подождать, чтобы увидеть, повторится ли она снова.

/ Edit - или вы можете послушать Эда и / или проверить базу знаний VMware.