У меня есть хост, который является частью кластера из 4 хостов в HA.
Вчера я заметил, что хост перестал отвечать, в консоли vsphere он отображается серым цветом как (не отвечает), а все виртуальные машины на нем отображаются как (недоступны). Сами виртуальные машины все еще работают нормально, я могу удаленно подключиться к ним, и все работает. На этой машине есть важные серверы. Я попытался щелкнуть правой кнопкой мыши по хосту и «Подключиться» через несколько часов, это просто не удалось. Я не могу переместить на нем виртуальные машины, все действия выделены серым цветом. На хосте нажатие F2 дает мне приглашение для входа в систему, после ввода моих учетных данных ничего не происходит. ALT + F1 не позволяет мне ничего делать, так как он не включен. SSH не включен. С помощью ALT + F11 я вижу, что hostd разбился, вероятно, проблема. Я позвонил в Vmware, так как у меня есть полная поддержка, но после очень короткого звонка он сказал, что ничего не остается, кроме как принудительно выключить хост.
Я бы предпочел не делать этого, я хотел бы перезапустить hostd, но у меня нет доступа. Я попробовал PowerCLI, но время ожидания подключения к хосту истекло. Vsphere напрямую к хосту тоже истекает. Пинг хоста работает, значит, есть хотя бы сеть.
Кто-нибудь знает другой способ получить оболочку?
Спасибо.
Дополнительная информация: Запуск ESXi 5.5.0 1331820 на Dell PowerEdge R720, Dell PERC H710
Я проверил DRAC, локальный том исправен. На самом деле это только рейд 1, все виртуальные машины находятся в SAN. Страница приветствия vmware esxi работает, но если я нажму на «просмотреть хранилища данных в инвентаре этого хоста», она никогда не появится. Похоже, что моб тоже работает правильно "hostip / mob /? Moid = ServiceInstance & doPath = content";
На консоли ALT + F11: 2014-09-11T7: 15: 02.329Z cpu12: 57750311) hostd обнаружен как не отвечающий
Та же строка, разное время и процессор 11 раз.
Для меня это звучит как проблема с локальным хранилищем. Я работал в среде с сотнями хостов ESXi, работающих на локальном хранилище RAID. К сожалению, контроллеры локального хранилища в оборудовании были нестабильными ... ядовитая смесь плохих версий прошивки LSI, неисправных объединительных плат и оборудования Supermicro.
Но поведение, которое вы описываете, указывает на проблему с локальным хранилищем. Ваши работающие виртуальные машины находятся в ОЗУ, сетевой стек не затронут, но возможность управления хостом скомпрометирована. Ваш логин не работает, потому что хост не может читать с локального диска. То же самое и с любыми другими командами, требующими доступа к диску.
Лучшим вариантом здесь является планирование упорядоченного завершения работы виртуальных машин (из гостевых операционных систем). Оттуда вручную выведите хост из строя (выключите, перезагрузите и т. Д.). Оставьте его в режиме обслуживания или вне выбранного кластера. Включите виртуальные машины и позвольте им работать в другом месте кластера vSphere.
Если вас интересует отладка проблем хоста, проверьте Dell DRAC для получения информации о состоянии массива хранения. Это укажет вам правильное направление.