Мы запускаем несколько виртуальных машин в 6-узловом отказоустойчивом кластере блейд-серверов с использованием Hyper V.
У нас периодически возникает проблема (каждые несколько дней в разное время, а не с фиксированной частотой), когда виртуальные машины теряют подключение к сети. Консольный доступ к виртуальной машине говорит о том, что все в порядке и базовый блейд-сервер имеет нормальное соединение. Чтобы решить эту проблему, нам нужно либо перезапустить виртуальную машину, либо, как правило, мы выполняем живую миграцию на другой блейд, который запускает подключение, а затем мы переносим его обратно на исходный блейд.
У меня было 3 случая этого, когда конкретная виртуальная машина работала на определенном блейд-сервере, но однажды это произошло с другой виртуальной машиной, работающей на другом блейд-сервере. Все виртуальные машины и блейд-серверы имеют одинаковую базовую настройку и работают под управлением Windows 2008 R2.
Есть идеи, где я должен искать, чтобы диагностировать возможные причины этой проблемы, поскольку журналы событий не помогают?
Редактировать:
Я проверил, что на каждом блейд-сервере установлены последние версии драйверов сетевой карты, и все в порядке.
Что-то меня смущает - отказ или перезапуск виртуальной машины решает проблему. Хотя мне нужно решить основную проблему, из-за которой сетевые адаптеры зависают, я также обеспокоен тем, что виртуальная машина не переключилась на другой узел, который решил бы сбой для меня. Есть ли способ настроить кластер так, чтобы он мог определить, что гость виртуальной машины потерял соединение, и переключиться на него? В настоящее время кластер предполагает, что виртуальная машина работает нормально, поскольку я предполагаю, что Hyper V говорит, что все отлично, даже если есть проблема.
Редактировать:
Думал, что обновлю это, так как проблема все еще не решена - реже, но все еще кажется случайной в отношении того, какая виртуальная машина затронута. Последние проверки заключались в том, что на всех виртуальных машинах использовались одни и те же драйверы MPIO и одинаковые версии драйверов для виртуальных сетевых адаптеров. Все выглядит идентично с некоторыми виртуальными машинами, которые работают в одном блейд-центре, но за пределами этого кластера, и эти виртуальные машины никогда не испытывали никаких проблем.
Может ли это быть ответом на вашу проблему: http://support.microsoft.com/kb/974909
Не лучший ответ, на который я надеялся, но в данном случае он сработал для нашей схемы ...
Мы вынули затронутые виртуальные машины из кластера, удалили сетевые адаптеры, а затем воссоздали их. В связи с этим каждое лезвие было извлечено из кластера, и все драйверы были обновлены, прежде чем они были возвращены.
Проблема потери связи была очевидна в течение следующих 6 недель, когда я наблюдал за ними - смена работы после этого означает, что я не уверен, что проблема все еще решена;)!
У вас случайно не была включена защита портов для портов коммутатора? Убедитесь, что у вас достаточно большое количество разрешенных MAC-адресов. Какая у вас конфигурация сети у родителей? Вы в команде?