Привет, ребята, инженеры.
У меня есть кластер ESXi5.0 с 3 хостами ESXi. Теперь мне нужно создать тестовый пример отказа сетевого оборудования и выполнить тест в центре обработки данных.
My Setup:
1) 3 DELL R820 Servers (all identical in the configuration and hardware)
2) PHYSICAL: Pair of 1GB ports for vSphere Management Network (active/standby)
VIRTUAL: 1 VMkernel Port vmk0 on standard vSwitch0
3) PHYSICAL: Pair of 10GB ports for regular network communications between guests MESH(active/active using IP Hash load balancing connected to the redundant switches)
VIRTUAL: dvSwitch0 with exposed and needed VLANs.
4) PHYSICAL: Pair of 10GB for storage NFS/VMDK (active/passive, Failover Only with "Link Status Only" network failure detection connected to different switches)
VIRTUAL: 1 VMkernel port vmk1 connected to distibuted switch dvSwitch01
5) PHYSICAL: Pair of 10GB for storage (guest initiated) (active/active, load balancing is based on Port ID with "Link Status Only" network failure detection connected to different switches)
HA and DRS enabled.
Я планировал просто проводить регулярные испытания тягового кабеля, но, возможно, упустил некоторые факторы. Буду признателен за любые предложения и / или передовые методы проведения такого теста.
- Выключите хост. - Для тестирования высокой доступности и контроля допуска.
- Выключите выключатель. - Для проверки ссылок аварийного переключения.
- Независимое отключение сетевых кабелей для передачи данных и хранения. - Для проверки устойчивости, балансировки нагрузки и состояния изоляции хранилища данных / хоста. Также отказоустойчивый контроллер хранилища.
Когда мы тестируем сценарии сбоя, мы начинаем с удаления отдельных проводов / волокон, затем целых сетевых адаптеров / HBA, затем серверов, затем коммутаторов - то есть от малого к большому - просто потому, что если платформа не может справиться с малым, то тестирование на большом будет бессмысленно. .
Тем не менее, я не вижу никаких проблем с вашей настройкой, во всяком случае, как вы это объяснили.
Я больше прибегаю к большому подходу - отключите сервер и при следующей попытке хранилище, а на последнем - переключатель - или в любом другом порядке - если система выживает, это -> все хорошо. Но если у вас много времени (и кто-то за него платит), вы можете попробовать каждую небольшую проблему самостоятельно ...
ЦГ