Назад | Перейти на главную страницу

Периодически 100% ЦП на всех виртуальных машинах

Мы - небольшой магазин, использующий Dell T420 (двухпроцессорный, только один, 6 ядер) с 32 ГБ оперативной памяти в качестве основного сервера. У нас всего 5 виртуальных машин, одна из которых - наш DC WSE 2012.

Время от времени и со скоростью, для которой нам не удалось установить надежную схему, все наши виртуальные машины одновременно загружают 100% ЦП. Хозяин остается тихим на 4-5%. Теплая перезагрузка хоста не приносит облегчения, но холодная перезагрузка, по крайней мере, убирает вещи обратно в коробку, пока проблема не повторится.

Иногда мы можем получить от этого неделю или больше спокойного моря; иногда всего день. Похоже, что ненадежная модель срабатывает когда-нибудь в течение длительного периода простоя, то есть в одночасье. Изучение журналов температуры сервера сначала привело нас к подозрению на перегрев, но дальнейшее расследование недавних инцидентов испортило этот вывод.

Мы также нашли описания подобных проблем на форумах Dell с заявлениями об их решении путем установки последнего раунда обновлений Dell. Недавно мы участвовали в проекте, чтобы сделать именно это (кстати, это было настоящее приключение, безопасно извлечь ~ 700 ГБ VHD, а затем обратно на эту машину), но, к нашему крайнему ужасу, это не помогло.

Мы совершенно сбиты с толку. То же самое и с поддержкой Microsoft (или, по крайней мере, с поддержкой первого уровня, даже если они стараются не вести себя так). Я включаю ниже наш вывод SystemInfo.

Кто-нибудь знает с чего начать искать?

Спасибо

===================================

Host Name:                 SERVER1
OS Name:                   Microsoft Hyper-V Server 2012 R2
OS Version:                6.3.9600 N/A Build 9600
OS Manufacturer:           Microsoft Corporation
OS Configuration:          Standalone Server
OS Build Type:             Multiprocessor Free
Registered Owner:          Windows User
Registered Organization:   
Product ID:                06401-029-0000043-76293
Original Install Date:     4/3/2014, 4:07:15 PM
System Boot Time:          5/4/2014, 1:56:47 PM
System Manufacturer:       Dell Inc.
System Model:              PowerEdge T420
System Type:               x64-based PC
Processor(s):              1 Processor(s) Installed.
                           [01]: Intel64 Family 6 Model 45 Stepping 7 GenuineIntel ~2200 Mhz
                           [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (manually added)
BIOS Version:              Dell Inc. 2.1.2, 1/20/2014
Windows Directory:         C:\Windows
System Directory:          C:\Windows\system32
Boot Device:               \Device\HarddiskVolume1
System Locale:             en-us;English (United States)
Input Locale:              en-us;English (United States)
Time Zone:                 (UTC-09:00) Alaska
Total Physical Memory:     32,723 MB
Available Physical Memory: 12,716 MB
Virtual Memory: Max Size:  37,587 MB
Virtual Memory: Available: 17,129 MB
Virtual Memory: In Use:    20,458 MB
Page File Location(s):     C:\pagefile.sys
Domain:                    OIT
Logon Server:              \\SERVER1
Hotfix(s):                 31 Hotfix(s) Installed.
                           [01]: KB2843630
                           [02]: KB2862152
                           [03]: KB2868626
                           [04]: KB2876331
                           [05]: KB2883200
                           [06]: KB2884846
                           [07]: KB2887595
                           [08]: KB2892074
                           [09]: KB2893294
                           [10]: KB2894179
                           [11]: KB2898514
                           [12]: KB2898871
                           [13]: KB2901101
                           [14]: KB2901128
                           [15]: KB2903939
                           [16]: KB2904266
                           [17]: KB2908174
                           [18]: KB2909210
                           [19]: KB2911106
                           [20]: KB2913760
                           [21]: KB2916036
                           [22]: KB2917929
                           [23]: KB2919394
                           [24]: KB2919442
                           [25]: KB2922229
                           [26]: KB2923300
                           [27]: KB2923768
                           [28]: KB2928193
                           [29]: KB2928680
                           [30]: KB2930275
                           [31]: KB2939087
Network Card(s):           3 NIC(s) Installed.
                           [01]: Broadcom NetXtreme Gigabit Ethernet
                                 Connection Name: NIC1
                                 DHCP Enabled:    No
                                 IP address(es)
                           [02]: Broadcom NetXtreme Gigabit Ethernet
                                 Connection Name: NIC2
                                 DHCP Enabled:    Yes
                                 DHCP Server:     192.168.1.12
                                 IP address(es)
                                 [01]: 192.168.1.135
                                 [02]: fe80::915b:8de0:712e:29f1
                           [03]: Hyper-V Virtual Ethernet Adapter
                                 Connection Name: vEthernet (External NIC 1_Internal)
                                 DHCP Enabled:    No
                                 IP address(es)
                                 [01]: 192.168.1.11
                                 [02]: fe80::2d35:f582:4958:9eb2
Hyper-V Requirements:      A hypervisor has been detected. Features required for Hyper-V will not be displayed.

== РЕДАКТИРОВАТЬ ======================

Я нашел решение этой проблемы; Я ждал больше года, чтобы убедиться, что мы больше не сталкиваемся с подобной проблемой.

Модераторы: Я хочу запросить повторное открытие вопроса, чтобы я мог опубликовать ответ.

После более года ожидания, чтобы доказать правильность решения, я наконец могу опубликовать этот ответ.

В настройках BIOS по умолчанию Dell включены состояния C, которые переводят компьютер в режим пониженного энергопотребления во время простоя. Это то, что заставляет виртуальные машины постепенно увеличивать загрузку ЦП на хосте гипервизора (включая VMWare, Citrix).

Решение состоит в том, чтобы установить для параметра «Профиль системы» в BIOS значение «Производительность», а не «Производительность на ватт [ОС]» или «Производительность на ватт» [DAPC] (последнее значение по умолчанию).

Соответствующая документация Dell, стр. 3:

http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download

И этот ответ от одного из немногих инженеров службы поддержки Dell, знакомых с проблемой:

Краткая версия: C-States отключают дополнительные ядра процессора во время простоя. Для виртуальных машин, которые привязаны к ядру (это контролируется ОС, я не верю, что это настраивается), это может привести к их блокировке, поскольку они пытаются выполнять действия с ресурсами, которые больше не существуют в их глазах.

Вообще говоря, C-состояния обычно используются в таких элементах, как серверы резервного копирования, серверы вторичной роли (резервные DNS, DHCP, контроллеры домена и т. Д.), Так что серверы резервного копирования могут оставаться включенными, но в режиме низкого энергопотребления для экономии энергии.

Дополнительную документацию можно найти здесь:

http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface

Вкратце, режим ожидания на сервере Dell всегда должен быть отключен (установлен на «Производительность») для хостов гипервизора.

Спасибо Эдди Саймонсу из Kitsap Bank за помощь в поиске этого решения.

Неясно, в чем проблема; вы это уже знаете. У нас нет возможности сказать вам, в чем причина.

Однако вы можете запустить несколько тестов:

  • Сборка ВМ 1

    • Постоянно запускать на этой виртуальной машине задачу с интенсивным использованием ЦП
      (Выполняйте миллионы сложных математических вычислений в секунду)
  • Сборка ВМ 2

    • Постоянно запускать на этой виртуальной машине задачу с интенсивным использованием ОЗУ
      (Создать в памяти гигантский массив, удалить, повторить)
  • Сборка ВМ 3

    • Постоянно запускать на этой виртуальной машине задачу с интенсивным использованием ДИСКА
      (Чтение / запись / удаление миллионов строк в / из файла)
  • Сборка ВМ 4

    • Постоянно запускать на этой виртуальной машине задачу с интенсивным использованием СЕТИ
      (Копирование файлов в / из общего ресурса SMB)

Подождите, пока проблема не возникнет снова, наблюдайте за данными о производительности на каждом из этих серверов.
Что пострадали больше всего?
Были ли вообще не затронуты?

Я предполагаю, что ваши диски отстой, и ЦП ожидает завершения операций ввода-вывода, прежде чем продолжить, что может привести к тому, что некоторые приложения выровняют ЦП.

Рад, что нашел это. У меня есть сервер 2012R2 с Hyper-v. AMD, 6-ядерный процессор. Он отлично работал больше года. Внезапно я начал видеть виртуальные машины, к которым нельзя было подключиться - ни с помощью RDP, ни с подключением Hyper-V. Единственный вариант - ВЫКЛЮЧИТЬ виртуальную машину. Завершение работы не получил ответа. Итак ... вытащите виртуальный штекер из стены. Включи.

Симптомом было то, что отдельная машина, казалось, использовала 100% выделенного ЦП (например, одноядерная виртуальная машина на шестиядерном хосте была привязана к 16%).

Проблема была спорадической. Никакой явной рифмы или причины.

В конце концов мне пришло в голову, что это совпало с моей неудачной попыткой перейти с 32 до 64 ГБ на этом мобо. ЭТА проблема заключалась в том, что я мог получить 1, 2 или 3 карты памяти по 16 ГБ для работы с 16, 32 или 48 ГБ, но не четыре карты на 64 ГБ. Много возни с настройками BIOS и т. Д. Никаких радостей по этому поводу. Именно тогда я обнаружил на виртуальной машине замечательную функцию включения динамической памяти. Оказывается, я бы все-таки выжил без 64 ​​гига !!

Я предполагаю, что я включил управление питанием для процессора, когда возился, и тогда эта проблема появилась.

Я в биосе отключил APM. Пройдет пара дней, прежде чем я на 60% уверен, что это исправит. Пару недель, чтобы объявить о победе. Но это ПОЧУЩАЕТСЯ хорошей причиной проблемы.

Прошло 24 часа, и пока все хорошо.

Скрещенные пальцы.

Спасибо за информацию!!