Назад | Перейти на главную страницу

Вопросы о подсистеме хостинга ресурсов кластера Hyper-V (RHS)

Я отвечаю за несколько крупных отказоустойчивых кластеров Hyper-V. Я очень иногда вижу проблему, при которой проверка ISALIVE: 0 для виртуальной машины завершается неудачно (через библиотеку vmclusres.dll), а подсистема хостинга ресурсов прекращает работу, в результате чего несколько машин останавливаются.

В Интернете есть множество противоречивой информации о том, что на самом деле здесь происходит. Некоторые источники предполагают, что отказоустойчивая кластеризация будет пытаться изолировать ресурс, который первым не прошел проверку работоспособности, в свой собственный процесс (предполагая, что это защищает другие ресурсы, работающие в том же RHS).

Этого категорически не происходит в полностью исправленном кластере Windows 2016 Hyper-V. Похоже, что вышедшая из строя RHS завершается, убивая все без исключения вычисления, выполняемые в рамках одного процесса. В журналах упоминается об изолированном проблемном ресурсе виртуальной машины, но я на самом деле не вижу никаких доказательств того, что это происходит (в свойствах этого ресурса), но даже если это действительно произойдет, конфигурация по умолчанию все равно привела к тому, что один ресурс фактически вызвал отключение.

Я могу как бы добавить доверия к этому сводному описанию поведения, но сам заставляю ресурс работать на своих отдельных мониторах. Если я делаю это в лаборатории, я встаю:

Get-ClusterResource -Name "*Virtual Machine blah*"

foreach ($resource in $cluster_resources) {$resource.SeparateMonitor}

... Я вижу, что все они используют настройку по умолчанию, которая не должна запускаться на отдельном мониторе. Хорошо.

Если я настрою их всех на запуск на собственном мониторе:

foreach ($resource in $cluster_resources) {$resource.SeparateMonitor = 1}

... и подсчитать процессы RHS нет никакой разницы. Как и следовало ожидать, если я перезапущу компьютер, у меня внезапно появится много процессов RHS, по одному для каждой виртуальной машины.

Таким образом, это говорит о том, что ресурс не может волшебным образом переключаться между родительскими процессами RHS, когда они работают \ включены, поэтому готовая конфигурация действительно может вывести из строя весь узел, когда есть проблема с одним ресурсом. Может ли кто-нибудь где-нибудь сказать мне, здесь ли я?

Кроме того, пытаемся вернуться к тому, почему возникла исходная проблема. Кто-нибудь знает, где я могу получить информацию о том, что такое ISALIVE-проверка для библиотеки vmclusres.dll фактически делаешь? Нигде нет информации о том, какая проверка завершилась неудачно, если это проверка состояния виртуальной машины, какая-то проверка связи IC и т. Д. ВМ не выгружала внутри гостя, она просто `` провалилась '' и вызвала сбой, что своего рода страшно. Из некоторых исследований я знаю, что проверка ISALIVE - это пятиминутная проверка, которая должна быть более глубокой проверкой из двух, но я не могу найти документации, в которой говорится, что она на самом деле проверяет, поэтому у меня нет способ работы в обратном направлении.

Проверьте эту таблицу для проверки Hyper-V LooksAlive и IsAlive на ВМ и связанных ресурсах