Назад | Перейти на главную страницу

Кластеры становятся недоступными со статусом ERROR

Я создал два кластера GKE с функцией автоматического обновления. Внезапно потерял весь доступ к этим кластерам и вижу две операции REPAIR_CLUSTER для каждой, которые считаются ВЫПОЛНЕННЫМИ (список операций бета-контейнера gcloud), а список кластеров контейнеров gcloud показывает мне два моих кластера с STAUS: ERROR.

P.S. Насколько мне известно, никто из наших инженеров за это время не выполнял никаких операций на уровне кластера.

Это была проблема с выставлением счетов. Я полагаю, что, поскольку у меня нет доступа к биллингу, кроме администратора, сообщения об ошибках настолько неясны, насколько это возможно.

На первый взгляд, трудно объяснить, почему кластеры возвращают статус ERROR, не глядя на файлы журнала или кластер. Проблема здесь в мастер-уровень кластера. Мастер кластера управляет и запускает сервер API Kubernetes, контроллеры основных ресурсов, планировщик, и в вашем случае, похоже, в главных файлах есть ошибки. Однако у пользователей нет доступа к мастеру GKE, поэтому изучить его на вашем уровне будет сложно.

Решения:

  1. Отредактируйте кластер. Это означает, что вы можете создать новый модуль, узел, демон-набор или развертывание. API обновят мастер, который может исправить ошибки в кластере.
  2. Вы можете попробовать понизить версию мастера кластера (или пула узлов) до предыдущей. Если какие-либо проблемы были вызваны функцией автоматического обновления, она вернется к исходным настройкам.
  3. Вы можете удалить и воссоздать кластер. Это обновит мастер, но это должно быть сделано в крайнем случае, если все остальные параметры не работают.
  4. Также рекомендую создать новый выпуск в общедоступном трекере проблем. Специалист службы поддержки GKE рассмотрит проблему и сможет осмотреть кластер.