Недавно у нас была проблема с хранилищем Fibre Channel (похоже, это был один неисправный кабель), которая затронула все 360 виртуальных машин в 2 кластерах, подключенных к одному и тому же устройству виртуализации хранилища - IBM SVC 2145. Виртуальные машины в основном так медленно реагировали, что их нельзя было использовать. и многие записывали ошибки symmpi в журналы событий Windows.
VMware ответила очевидным - «проблемой хранилища», но наша команда по хранению непреклонна твердо уверена, что проблем с их оборудованием или зонированием не было. Мне нужно знать, как один неисправный кабель может эффективно вывести из строя все виртуальные машины в двух отдельных кластерах.
У кого-нибудь была подобная проблема, или кто-нибудь мог пролить свет?
PS на всех хостах запущено vSphere update 1 с исправлениями до декабря 2009 года.
Изменить: физические серверы, подключенные к одному и тому же SVD, по-видимому, не пострадали.
Я не верю, что неисправность кабеля может вызвать повреждение - дейтаграммы FC имеют контрольную сумму, чтобы предотвратить такую проблему - на самом деле FC может быть одним из самых устойчивых протоколов передачи для своей скорости.
Вы могли быть слишком подписаны на ссылки. Может, посмотрите трафик в сети FC, он захлопнут? Если это так, отключение одного канала может означать высокую задержку для дискового ввода-вывода. У Vkernal есть хорошее программное обеспечение для поиска узких мест в кластере VMWare. Это могло пролить свет. Надеюсь это поможет.