Я сталкиваюсь с очень устойчивой виртуальной машиной (2008R2, инструменты VMware немного устаревшие, те, которые поставлялись с 5.5U3a) в кластере ESXi 6.0U2, работающем на серверах Dell R630. С внешней стороны виртуальная машина перестает отвечать через некоторое время - это может быть день, может быть неделя - и она больше не отвечает на эхо-запросы, запросы на соединение и т. Д. (Она запускает промышленное приложение и некоторый MSSQL). Однако такое поведение уже можно было наблюдать, когда кластер работал с версией 5.5U3a.
Итак, я пытаюсь перезапустить виртуальную машину через веб-клиент или через толстый клиент. Ничего не произошло. Мол, часами. Следующий шаг эскалации:
esxcli vm process kill -w <worldID> -t soft
Нет ответа, без изменений. Пропустите -t и сразу перейдите к
esxcli vm process kill -w <worldID> -t force
Никакого ответа тоже. ВМ продолжает пыхтеть, не отвечает и все такое, но мир просто отказывается быть убитым. Также нет сообщения об ошибке. Перезагрузка хоста с виртуальной машиной - последнее средство.
Как я могу определить основную причину такого странного поведения?
После определения правильного процесса с помощью ps | grep vmx
, вы можете резко прервать его через kill -9 <pid>
Будьте очень осторожны, чтобы выбрать (и убить) правильный процесс. Для получения дополнительной информации посмотрите Вот
Если ничего не работает, согласно собственной документации VmWare, вам пришлось перезагрузить хост ESX
Как я могу определить основную причину такого странного поведения?
Научный метод твой друг.
Определите проблему, которую хотите решить. Похоже, у вас есть 2 (возможно, взаимосвязанные) проблемы. Виртуальная машина перестает отвечать, и ESXi не может ее убить.
Соберите данные. Ищите соответствующую информацию в журналах, в вашем мониторинге и т. Д.
Анализируйте данные.
Внесите изменения на основе вашего анализа.
Убедитесь, что изменения работают. Если они не вернутся к 2 или 3 и соберут больше данных / проведите повторный анализ.
Задокументируйте свои выводы.