Назад | Перейти на главную страницу

Проблема с хранилищем - 360 виртуальных машин не отвечают

Недавно у нас была проблема с хранилищем Fibre Channel (похоже, это был один неисправный кабель), которая затронула все 360 виртуальных машин в 2 кластерах, подключенных к одному и тому же устройству виртуализации хранилища - IBM SVC 2145. Виртуальные машины в основном так медленно реагировали, что их нельзя было использовать. и многие записывали ошибки symmpi в журналы событий Windows.

VMware ответила очевидным - «проблемой хранилища», но наша команда по хранению непреклонна твердо уверена, что проблем с их оборудованием или зонированием не было. Мне нужно знать, как один неисправный кабель может эффективно вывести из строя все виртуальные машины в двух отдельных кластерах.

У кого-нибудь была подобная проблема, или кто-нибудь мог пролить свет?

PS на всех хостах запущено vSphere update 1 с исправлениями до декабря 2009 года.

Изменить: физические серверы, подключенные к одному и тому же SVD, по-видимому, не пострадали.

storage fibre-channel

Я не верю, что неисправность кабеля может вызвать повреждение - дейтаграммы FC имеют контрольную сумму, чтобы предотвратить такую проблему - на самом деле FC может быть одним из самых устойчивых протоколов передачи для своей скорости.

Вы могли быть слишком подписаны на ссылки. Может, посмотрите трафик в сети FC, он захлопнут? Если это так, отключение одного канала может означать высокую задержку для дискового ввода-вывода. У Vkernal есть хорошее программное обеспечение для поиска узких мест в кластере VMWare. Это могло пролить свет. Надеюсь это поможет.