Я создал два кластера GKE с функцией автоматического обновления. Внезапно потерял весь доступ к этим кластерам и вижу две операции REPAIR_CLUSTER для каждой, которые считаются ВЫПОЛНЕННЫМИ (список операций бета-контейнера gcloud), а список кластеров контейнеров gcloud показывает мне два моих кластера с STAUS: ERROR.
P.S. Насколько мне известно, никто из наших инженеров за это время не выполнял никаких операций на уровне кластера.
Это была проблема с выставлением счетов. Я полагаю, что, поскольку у меня нет доступа к биллингу, кроме администратора, сообщения об ошибках настолько неясны, насколько это возможно.
На первый взгляд, трудно объяснить, почему кластеры возвращают статус ERROR, не глядя на файлы журнала или кластер. Проблема здесь в мастер-уровень кластера. Мастер кластера управляет и запускает сервер API Kubernetes, контроллеры основных ресурсов, планировщик, и в вашем случае, похоже, в главных файлах есть ошибки. Однако у пользователей нет доступа к мастеру GKE, поэтому изучить его на вашем уровне будет сложно.
Решения: