РЕДАКТИРОВАТЬ: Это был неконтролируемый процесс приложения, а не GCE. Вот проблема, и ответ дан ниже:
У меня только что произошел какой-то сбой с моей виртуальной машиной CE в пробной учетной записи, но я не вижу никаких сбоев в списке сбоев вычислений Google.
Я не уверен, как долго это длилось, так как не знаю, когда это началось. Судя по поведению, это соответствует тому, что, казалось, произошло несколько недель назад (потеря возможности входить в систему по SSH через панель управления Compute Engine до перезагрузки виртуальной машины).
Моя тестовая виртуальная машина отключила мое SSH-соединение примерно за последний день, и когда я заметил сегодня, я не смог восстановить соединение. Затем я попытался подключиться к SSH, используя «SSH-подключение» в списке виртуальных машин Compute Engine, и это не удалось. Единственное, что я мог сделать, это получить подсказку на последовательной консоли ... но у меня вообще не было учетной записи с паролем, я полагался на SSH (теперь исправлено). Мне пришлось остановить виртуальную машину и перезапустить ее ... затем я мог подключиться, используя параметр подключения "SSH" в списке виртуальных машин, хотя я НЕ мог подключиться извне. Я подключился к последовательной консоли и увидел несколько сообщений об ошибках в сети, пытающихся подключиться к различным снимкам. Я попытался подключиться к удаленному серверу по SSH из своего окна SSH в виртуальную машину, и сначала не смог. Примерно через минуту это сработало, и внезапно удаленные соединения снова заработали.
РЕДАКТИРОВАТЬ: я получил ответ на свой запрос в службу поддержки от Google. Они говорят, что я пережил событие живой миграции. Звучит не так. Это было как минимум 10 минут прерывания сети. Я мог подключиться к последовательной консоли, и она казалась отзывчивой. И только после перезагрузки и сбоя инициализации привязок управления Google он внезапно начал работать. Может быть, сбой связи при загрузке вызвал событие миграции? Я не знаю.
РЕДАКТИРОВАТЬ: я снял беспокойство о стабильности GCE, поскольку инфраструктура не имела ничего общего с проблемой.
Это может происходить по ряду причин. Я бы порекомендовал проверить устранение неполадок SSH документ для получения дополнительной информации о том, как устранить эту проблему.
Эта проблема также могла возникнуть, если гостевая среда Linux не была запущена должным образом после динамической миграции. Гостевые среды включают в себя набор сценариев и процессов, которые запускают содержимое с сервера метаданных и создают надлежащую среду для запуска виртуальной машины. Возможно, ключи SSH не были правильно установлены во время настройки гостевой среды.
Вы также можете установить для поля «automaticRestart» значение «true», как указано в этот документ. Это автоматически перезапустит ваш экземпляр, если он выйдет из строя из-за проблем с оборудованием или после динамической миграции. Это обеспечит правильную настройку ключей SSH. Не стесняйтесь читать живую миграцию документация если вам нужна дополнительная информация о живой миграции в Google Cloud Platform.
Экземпляр казался работоспособным на последовательной консоли, но на самом деле он был в очень тяжелом состоянии из-за неконтролируемого процесса с привилегиями root (временное тестирование), поглощающего всю доступную память. Системный убийца OOM постоянно убивал процесс, который просто возродился.
Google Compute Engine по умолчанию должен отслеживать использование системной памяти. Странно, что это не так.
Итак, ммм ... учитывая ситуацию, полезность этого вопроса для кого-то кажется низкой. Следует ли его удалить?