У меня есть кластер GKE, работающий на 1.11.2-gke.15, и мои поды не могут общаться друг с другом.
Кажется, что разрешение DNS работает изнутри контейнеров
# nslookup myapp.testns.svc.cluster.local
Server: 10.7.5.10
Address: 10.7.5.10#53
Non-authoritative answer:
Name: myapp.testns.svc.cluster.local
Address: 10.7.13.156
Однако, когда я пытаюсь на самом деле нажать на сервис, похоже, не работает
# telnet myapp.testns.svc.cluster.local 8080
Trying 10.7.13.156...
Кажется, это могло начаться после того, как я обновил кластер с 1.10 до 1.11.2.
Я попытался перезапустить узлы и все модули, но ничего не вышло.
Я упускаю что-то очевидное?
ОБНОВЛЕНИЕ 1:
Я выяснил, что один из узлов в кластере, созданный автоматическим масштабированием узлов, недоступен. Все модули в нем не могут быть доступны модулям других узлов.
Решение заключалось в том, чтобы уменьшить масштаб кластера вручную и позволить автомасштаберу снова увеличить его, и теперь новый узел стал доступным. Я не уверен, почему это произошло или как предотвратить это в будущем, поэтому предложения приветствуются
Похоже, это может быть проблема с версией 1.11.2-gke.15, о ней было сообщено как о частной проблеме. Выполняется развертывание новой версии 1.11.2 (gke.18), которая решает эту проблему.