Назад | Перейти на главную страницу

События обслуживания GCP

Недавно мы столкнулись с проблемой, когда наш главный экземпляр Dataproc перезагружался, и некоторые из наших служб не запускались должным образом; мы не уверены, что вызвало эту перезагрузку, но журналы предполагают, что это обслуживание GCP. Хотя мы, вероятно, могли бы использовать Stackdriver мониторинг Чтобы уловить и отреагировать на такие типы событий, возник вопрос о том, есть ли у GCP сервис, который можно использовать для уведомления нас о техническом обслуживании до или во время его проведения. Любые советы будут оценены!

GCP не перезагружает виртуальные машины для планового обслуживания. Вместо этого виртуальная машина переносится в реальном времени, чтобы избежать перезагрузок и простоев виртуальной машины во время обслуживания.

Compute Engine предлагает динамическую миграцию, позволяющую поддерживать работу экземпляров виртуальных машин даже при возникновении системного события хоста, такого как обновление программного обеспечения или оборудования. Compute Engine live переносит ваши запущенные экземпляры на другой хост в той же зоне, не требуя перезагрузки виртуальных машин. Это позволяет Google выполнять техническое обслуживание, которое является неотъемлемой частью защиты и надежности инфраструктуры, не прерывая работу каких-либо ваших виртуальных машин. [источник]

Но если оборудование, на котором работает ваша виртуальная машина, выходит из строя, ваша виртуальная машина может перезагрузиться.

Как говорит касперд, в целом виртуальные машины (необязательно) переносятся в реальном времени при техническом обслуживании, и, возможно, вы наблюдали аппаратный сбой, но есть исключения, включая экземпляры с ускорителями графического процессора, как описано здесь: События обслуживания GCP

Google предоставляет способ получать уведомления о незавершенных событиях обслуживания, запрашивая URL-адрес следующим образом: curl http://metadata.google.internal/computeMetadata/v1/instance/maintenance-event -H "Metadata-Flavor: Google" --- ответ NONE указывает на отсутствие ожидающих или текущих событий.

Они также предоставляют основу для сценария оболочки на Python, который позволяет избежать повторного опроса этого URL: https://github.com/GoogleCloudPlatform/python-docs-samples/blob/master/compute/metadata/main.py