Сценарий отказа оборудования кластера ESXi 5x

Привет, ребята, инженеры.

У меня есть кластер ESXi5.0 с 3 хостами ESXi. Теперь мне нужно создать тестовый пример отказа сетевого оборудования и выполнить тест в центре обработки данных.

My Setup:

    1) 3 DELL R820 Servers (all identical in the configuration and hardware)

    2) PHYSICAL: Pair of 1GB ports for vSphere Management Network (active/standby)
       VIRTUAL: 1 VMkernel Port vmk0 on standard vSwitch0

    3) PHYSICAL: Pair of 10GB ports for regular network communications between guests MESH(active/active using IP Hash load balancing connected to the redundant switches) 
       VIRTUAL: dvSwitch0 with exposed and needed VLANs.
    4) PHYSICAL: Pair of 10GB for storage NFS/VMDK (active/passive, Failover Only with "Link Status Only" network failure detection connected to different switches)
       VIRTUAL: 1 VMkernel port vmk1 connected to distibuted switch dvSwitch01
    5) PHYSICAL: Pair of 10GB for storage (guest initiated) (active/active, load balancing is based on Port ID with "Link Status Only" network failure detection connected to different switches)

HA and DRS enabled.

Я планировал просто проводить регулярные испытания тягового кабеля, но, возможно, упустил некоторые факторы. Буду признателен за любые предложения и / или передовые методы проведения такого теста.

- Выключите хост. - Для тестирования высокой доступности и контроля допуска.

- Выключите выключатель. - Для проверки ссылок аварийного переключения.

- Независимое отключение сетевых кабелей для передачи данных и хранения. - Для проверки устойчивости, балансировки нагрузки и состояния изоляции хранилища данных / хоста. Также отказоустойчивый контроллер хранилища.

Когда мы тестируем сценарии сбоя, мы начинаем с удаления отдельных проводов / волокон, затем целых сетевых адаптеров / HBA, затем серверов, затем коммутаторов - то есть от малого к большому - просто потому, что если платформа не может справиться с малым, то тестирование на большом будет бессмысленно. .

Тем не менее, я не вижу никаких проблем с вашей настройкой, во всяком случае, как вы это объяснили.

Я больше прибегаю к большому подходу - отключите сервер и при следующей попытке хранилище, а на последнем - переключатель - или в любом другом порядке - если система выживает, это -> все хорошо. Но если у вас много времени (и кто-то за него платит), вы можете попробовать каждую небольшую проблему самостоятельно ...

ЦГ