Назад | Перейти на главную страницу

Хост Windows Server 2019 Docker зависает при большой нагрузке

В настоящее время я столкнулся с проблемой зависания Windows Server 2019 Standard Server при большой нагрузке на систему. Рассматриваемый сервер является хостом для контейнеров докеров Windows, которые используются для компиляции и тестирования приложений .NET.

Сам сервер представляет собой двухпроцессорную систему с двумя процессорами AMD EPYC 7451 и 128 ГБ памяти. Используемая версия Windows - Windows Server 2019 версии 1809 (сборка 17763.1158).

Проблема возникает, когда система находится под большой нагрузкой, что означает около 90% нагрузки на оба процессора и около 90 ГБ используемой памяти при одновременном создании и уничтожении контейнеров докеров. Когда возникает проблема, вся система внезапно останавливается, однако при подключении к физическому порту VGA сервера я заметил, что рабочий стол все еще работает. В это время у меня был открыт обозреватель процессов. Список процессов и все графики остановились, но пользовательский интерфейс все еще работал. Я мог перемещать окна, и переключение вкладок в системной информации монитора процесса все еще работало. Однако все функции, вызывающие мгновенное открытие нового окна, также приводили к зависанию пользовательского интерфейса монитора процессов. CTRL + ALT + DEL больше не работает после зависания системы, также я включил CTRL + ALT + SCRLK, чтобы безуспешно запускать BSoD. Как бы то ни было, курсор мыши все еще работает, и переключение num lock на клавиатуре тоже работает. Журнал событий не показывает никаких записей после зависания системы и никаких ошибок прямо перед этим. Последняя запись в журнале событий обычно представляет собой сообщение от коммутатора Hyper-V VMSwitch, которое создает или удаляет сеть Hyper-V. Я предполагал, что проблема может быть связана с системными дескрипторами, потому что запуск приложений и создание окон, похоже, больше не работали, но во время зависания системы в системе было всего около 250 тыс. Активных дескрипторов.

Чтобы решить эту проблему, я уже обновил в основном все драйверы для оборудования, я обновил микропрограммы всех компонентов оборудования, которые это позволяют, и обновил BIOS до последней версии, и все это без изменения ситуации. Я также провел стресс-тест для процессоров и memtest для оперативной памяти. Оба не выявили никаких проблем.

У меня заканчиваются идеи, что еще делать или даже что искать на этом этапе. Кто-нибудь здесь, у кого была аналогичная проблема или какой-либо совет, что еще я мог попробовать, чтобы решить проблему?