Мы - небольшой магазин, использующий Dell T420 (двухпроцессорный, только один, 6 ядер) с 32 ГБ оперативной памяти в качестве основного сервера. У нас всего 5 виртуальных машин, одна из которых - наш DC WSE 2012.
Время от времени и со скоростью, для которой нам не удалось установить надежную схему, все наши виртуальные машины одновременно загружают 100% ЦП. Хозяин остается тихим на 4-5%. Теплая перезагрузка хоста не приносит облегчения, но холодная перезагрузка, по крайней мере, убирает вещи обратно в коробку, пока проблема не повторится.
Иногда мы можем получить от этого неделю или больше спокойного моря; иногда всего день. Похоже, что ненадежная модель срабатывает когда-нибудь в течение длительного периода простоя, то есть в одночасье. Изучение журналов температуры сервера сначала привело нас к подозрению на перегрев, но дальнейшее расследование недавних инцидентов испортило этот вывод.
Мы также нашли описания подобных проблем на форумах Dell с заявлениями об их решении путем установки последнего раунда обновлений Dell. Недавно мы участвовали в проекте, чтобы сделать именно это (кстати, это было настоящее приключение, безопасно извлечь ~ 700 ГБ VHD, а затем обратно на эту машину), но, к нашему крайнему ужасу, это не помогло.
Мы совершенно сбиты с толку. То же самое и с поддержкой Microsoft (или, по крайней мере, с поддержкой первого уровня, даже если они стараются не вести себя так). Я включаю ниже наш вывод SystemInfo.
Кто-нибудь знает с чего начать искать?
Спасибо
===================================
Host Name: SERVER1 OS Name: Microsoft Hyper-V Server 2012 R2 OS Version: 6.3.9600 N/A Build 9600 OS Manufacturer: Microsoft Corporation OS Configuration: Standalone Server OS Build Type: Multiprocessor Free Registered Owner: Windows User Registered Organization: Product ID: 06401-029-0000043-76293 Original Install Date: 4/3/2014, 4:07:15 PM System Boot Time: 5/4/2014, 1:56:47 PM System Manufacturer: Dell Inc. System Model: PowerEdge T420 System Type: x64-based PC Processor(s): 1 Processor(s) Installed. [01]: Intel64 Family 6 Model 45 Stepping 7 GenuineIntel ~2200 Mhz [Intel(R) Xeon(R) CPU E5-2430 0 @ 2.20 GHz] (manually added) BIOS Version: Dell Inc. 2.1.2, 1/20/2014 Windows Directory: C:\Windows System Directory: C:\Windows\system32 Boot Device: \Device\HarddiskVolume1 System Locale: en-us;English (United States) Input Locale: en-us;English (United States) Time Zone: (UTC-09:00) Alaska Total Physical Memory: 32,723 MB Available Physical Memory: 12,716 MB Virtual Memory: Max Size: 37,587 MB Virtual Memory: Available: 17,129 MB Virtual Memory: In Use: 20,458 MB Page File Location(s): C:\pagefile.sys Domain: OIT Logon Server: \\SERVER1 Hotfix(s): 31 Hotfix(s) Installed. [01]: KB2843630 [02]: KB2862152 [03]: KB2868626 [04]: KB2876331 [05]: KB2883200 [06]: KB2884846 [07]: KB2887595 [08]: KB2892074 [09]: KB2893294 [10]: KB2894179 [11]: KB2898514 [12]: KB2898871 [13]: KB2901101 [14]: KB2901128 [15]: KB2903939 [16]: KB2904266 [17]: KB2908174 [18]: KB2909210 [19]: KB2911106 [20]: KB2913760 [21]: KB2916036 [22]: KB2917929 [23]: KB2919394 [24]: KB2919442 [25]: KB2922229 [26]: KB2923300 [27]: KB2923768 [28]: KB2928193 [29]: KB2928680 [30]: KB2930275 [31]: KB2939087 Network Card(s): 3 NIC(s) Installed. [01]: Broadcom NetXtreme Gigabit Ethernet Connection Name: NIC1 DHCP Enabled: No IP address(es) [02]: Broadcom NetXtreme Gigabit Ethernet Connection Name: NIC2 DHCP Enabled: Yes DHCP Server: 192.168.1.12 IP address(es) [01]: 192.168.1.135 [02]: fe80::915b:8de0:712e:29f1 [03]: Hyper-V Virtual Ethernet Adapter Connection Name: vEthernet (External NIC 1_Internal) DHCP Enabled: No IP address(es) [01]: 192.168.1.11 [02]: fe80::2d35:f582:4958:9eb2 Hyper-V Requirements: A hypervisor has been detected. Features required for Hyper-V will not be displayed.
== РЕДАКТИРОВАТЬ ======================
Я нашел решение этой проблемы; Я ждал больше года, чтобы убедиться, что мы больше не сталкиваемся с подобной проблемой.
Модераторы: Я хочу запросить повторное открытие вопроса, чтобы я мог опубликовать ответ.
После более года ожидания, чтобы доказать правильность решения, я наконец могу опубликовать этот ответ.
В настройках BIOS по умолчанию Dell включены состояния C, которые переводят компьютер в режим пониженного энергопотребления во время простоя. Это то, что заставляет виртуальные машины постепенно увеличивать загрузку ЦП на хосте гипервизора (включая VMWare, Citrix).
Решение состоит в том, чтобы установить для параметра «Профиль системы» в BIOS значение «Производительность», а не «Производительность на ватт [ОС]» или «Производительность на ватт» [DAPC] (последнее значение по умолчанию).
Соответствующая документация Dell, стр. 3:
http://en.community.dell.com/techcenter/extras/m/white_papers/20161975/download
И этот ответ от одного из немногих инженеров службы поддержки Dell, знакомых с проблемой:
Краткая версия: C-States отключают дополнительные ядра процессора во время простоя. Для виртуальных машин, которые привязаны к ядру (это контролируется ОС, я не верю, что это настраивается), это может привести к их блокировке, поскольку они пытаются выполнять действия с ресурсами, которые больше не существуют в их глазах.
Вообще говоря, C-состояния обычно используются в таких элементах, как серверы резервного копирования, серверы вторичной роли (резервные DNS, DHCP, контроллеры домена и т. Д.), Так что серверы резервного копирования могут оставаться включенными, но в режиме низкого энергопотребления для экономии энергии.
Дополнительную документацию можно найти здесь:
http://en.wikipedia.org/wiki/Advanced_Configuration_and_Power_Interface
Вкратце, режим ожидания на сервере Dell всегда должен быть отключен (установлен на «Производительность») для хостов гипервизора.
Спасибо Эдди Саймонсу из Kitsap Bank за помощь в поиске этого решения.
Неясно, в чем проблема; вы это уже знаете. У нас нет возможности сказать вам, в чем причина.
Однако вы можете запустить несколько тестов:
Сборка ВМ 1
Сборка ВМ 2
Сборка ВМ 3
Сборка ВМ 4
Подождите, пока проблема не возникнет снова, наблюдайте за данными о производительности на каждом из этих серверов.
Что пострадали больше всего?
Были ли вообще не затронуты?
Я предполагаю, что ваши диски отстой, и ЦП ожидает завершения операций ввода-вывода, прежде чем продолжить, что может привести к тому, что некоторые приложения выровняют ЦП.
Рад, что нашел это. У меня есть сервер 2012R2 с Hyper-v. AMD, 6-ядерный процессор. Он отлично работал больше года. Внезапно я начал видеть виртуальные машины, к которым нельзя было подключиться - ни с помощью RDP, ни с подключением Hyper-V. Единственный вариант - ВЫКЛЮЧИТЬ виртуальную машину. Завершение работы не получил ответа. Итак ... вытащите виртуальный штекер из стены. Включи.
Симптомом было то, что отдельная машина, казалось, использовала 100% выделенного ЦП (например, одноядерная виртуальная машина на шестиядерном хосте была привязана к 16%).
Проблема была спорадической. Никакой явной рифмы или причины.
В конце концов мне пришло в голову, что это совпало с моей неудачной попыткой перейти с 32 до 64 ГБ на этом мобо. ЭТА проблема заключалась в том, что я мог получить 1, 2 или 3 карты памяти по 16 ГБ для работы с 16, 32 или 48 ГБ, но не четыре карты на 64 ГБ. Много возни с настройками BIOS и т. Д. Никаких радостей по этому поводу. Именно тогда я обнаружил на виртуальной машине замечательную функцию включения динамической памяти. Оказывается, я бы все-таки выжил без 64 гига !!
Я предполагаю, что я включил управление питанием для процессора, когда возился, и тогда эта проблема появилась.
Я в биосе отключил APM. Пройдет пара дней, прежде чем я на 60% уверен, что это исправит. Пару недель, чтобы объявить о победе. Но это ПОЧУЩАЕТСЯ хорошей причиной проблемы.
Прошло 24 часа, и пока все хорошо.
Скрещенные пальцы.
Спасибо за информацию!!