Назад | Перейти на главную страницу

GCP Cloud SQL postgres в плохом состоянии после обслуживания

Было то, что выглядело как плановое обслуживание в нашем экземпляре postgres cloud sql, управляемом высокой доступностью, и с тех пор он находится в плохом состоянии.

7 января 2018 г., 2:08:21 Обновление Произошла неизвестная ошибка.

Экземпляр аварийного переключения не работал «путем аварийного переключения», теперь он даже больше не существует, мы не можем перезапустить или выполнить какую-либо другую операцию, эта производственная база данных полностью недоступна

2018/01/08 09:41:24 не удалось подключиться к «ourprojectid: us-central1: имя экземпляра»: googleapi: ошибка 409: экземпляр или операция не находятся в состоянии, подходящем для обработки запроса., InvalidState

Мы также пытались связаться со службой поддержки, напрямую отправив электронное письмо, как это было предложено в аналогичных опубликованных проблемах.

https://stackoverflow.com/questions/42719547/cloud-sql-instances-are-not-starting-or-restarting-its-stuck

Мы начинаем рассматривать возможность создания нового экземпляра и восстановления из резервной копии, но я бы ожидал большей отказоустойчивости от экземпляра, управляемого высокой доступностью, и при плановом обслуживании этого не происходит более суток.

заранее спасибо

Во-первых, не сообщайте свой идентификатор проекта GCP или информацию об экземпляре CloudSQL в ветке сообщества в таком виде. Дотянуться к Специалисты службы поддержки GCP напрямую если вам требуется такая проверка на вашем экземпляре CloudSQL

Как следует из ошибки, либо операция зависла, либо экземпляр CloudSQL завис в результате ошибки. Эта ошибка может возникнуть по ряду причин, в том числе:

  1. Попытка повторно использовать имя экземпляра в течение недели после удаления экземпляра. Аналогичная проблема сообщил здесь

  2. Если операция действительно зависла. Это потребует от инженеров службы поддержки GCP остановить зависшую операцию.

  3. Экземпляр по каким-либо причинам, включая другую внутреннюю или основную проблему, также может стать неисправным или недоступным. Инженеры GCP также смогут помочь в этом случае.

Как правило, воссоздание экземпляра CloudSQL и восстановление резервных копий, как вы правильно сделали, может помочь избежать решения этой проблемы.

Этот вопрос давно не задавали, я обновлю эту ветку, добавив более подробную информацию.

  1. Первоначально идентификаторы проекта и экземпляра были заменены произвольной строкой, чтобы не раскрывать настоящие, но спасибо за совет.
  2. У учетной записи была только поддержка сообщества, которая не включала прямой доступ к поддержке / инженерам, и только поддержка, доступная и рекомендованная документами GCP, была переполнением стека и ошибкой сервера.
  3. Наконец-то нам удалось получить ответ от команды инженеров через прямые сообщения, которые подтвердили известную ошибку, которая в прошлом все еще была услугой в бета-версии, на которую не распространялся стандартный SLA. Они починили это, и с нашей стороны не потребовалось никаких дополнительных действий.

Спасибо