Я потратил на это слишком много времени.
У нас есть 8-узловое частное облако Microsoft, размещенное на Cisco Flexpod (блейд-серверы B200, Nexus 5k, 6248FI с двумя контроллерами NetApp FAS2550 для SAN). Запуск прошивки UCS 2.2 (5a).
Все узлы SAN загружаются и запускают Server 2012 R2 Datacentre. На каждом хосте установлен CSV, на котором размещены VHDX наших с лишним 70 виртуальных машин.
Недавно мы перешли на Visual Studio Online и ввели в эксплуатацию несколько серверов сборки (ну, 3). После завершения сборки артефакты публикуются в наших средах подготовки и тестирования, каждая из которых состоит из одной виртуальной машины, на которой работает Server 2012 R2 Standard. Эта публикация использует Robocopy для копирования артефактов на долю C $ этих виртуальных машин.
Когда эта копия происходит, мы видим следующее:
- Графический интерфейс виртуальной машины перестает отвечать
- При подключении к виртуальной машине в этом состоянии мы не можем войти в систему (иногда ctrl-alt-del не действует, иногда отображается приглашение входа в систему, но ввод не отображается в поле пароля)
- Если мы вошли в систему до начала трафика CIFS / SMB, элементы графического интерфейса будут работать до тех пор, пока вы не начнете с ними взаимодействовать.
- Через некоторое время все виртуальные машины, размещенные на одном узле Hyper-V, начинают испытывать таймауты.
- ВМ не отвечает на команды выключения через диспетчер отказоустойчивого кластера, и мы должны выключить ВМ, что занимает немного времени, но завершает
- После перезагрузки виртуальной машины все в порядке, пока вы снова не попытаетесь скопировать на нее
- Существующие виртуальные машины (то есть виртуальные машины, введенные в эксплуатацию давно) не затронуты, это только виртуальные машины, введенные в эксплуатацию в прошлом месяце.
Для отладки я попробовал руководство (например, копирование и вставка Windows), в котором обнаружена та же проблема.
Я пробовал:
- Изменение настроек масштабирования на стороне приема
- Отключенный VMQ (хотя у нас нет адаптеров Broadcom, а есть Cisco VIC) как на хосте, так и на сетевом адаптере виртуальной машины
- Перезагрузил весь кластер (скользящий перезапуск хостов)
- Создание новой виртуальной машины без каких-либо обновлений Windows. Испытывает ту же проблему
- Подтверждено, что у нас нет повторяющихся IP-адресов
- На хостах или гостевых виртуальных машинах нет антивируса.
- Поскольку элементы графического интерфейса, открытые до запуска проблемы, продолжают работать, я запустил Resource Monitor и проверил использование диска. Когда проблема возникает, количество операций ввода-вывода на диске падает почти до нуля. На этом этапе (наряду со специальными инструментами мониторинга NetApp и тем фактом, что виртуальные машины на всех других узлах продолжают работать) я исключил компонент хранилища как виновника. Смотрите ниже снимок экрана, на котором показано, когда началось копирование:
Обратите внимание на падение дискового ввода-вывода. Между прочим, все остальные виртуальные машины на том же хосте Hyper-V на дисковом IO одновременно падают до 0.
Сегодня утром из-за разочарования я создал виртуальную машину Gen1 и ввел ее в эксплуатацию, как и любой другой Gen2. Это по неизвестной причине работает. Если я копирую на долю C $ машины Gen2, это терпит неудачу. Если я скопирую из того же места на долю C $ этой новой машины Gen1, проблем не возникнет.
Обновление: я также заметил, что копирование с машин Gen2 в порядке. Просто при копировании ТО их проблема проявляется.
Что может быть причиной этого? В чем разница между Gen1 и Gen2? Может быть, проблема в прошивке UCS.