Я только что переместил свой кластер из AWS EC2 в Google Compute и, глядя на журналы, кажется, что с сетью постоянно возникают проблемы.
Это происходит с двумя конкретными узлами несколько раз в день.
Начинается с ошибки:
master left (reason = failed to ping, tried [3] times, each with maximum [30s] timeout), current nodes: nodes:
При проверке журналов не похоже, что они перезагружаются (работают с докером), просто отключаются и снова подключаются.
Вкладка сети в VM instance details
не так уж и полезно.
На случай, если кто-то столкнется с этим, мы в конце концов решили эту проблему.
(1) По-видимому, в Google Compute соединения отключаются через 10 минут, что довольно мало (по умолчанию для ubuntu это 2 часа, чтобы поддерживать пинги). Источником этого является Вот. Они даже рекомендуют в этой ссылке, какие значения фактически использовать, которые ниже, чем наша первоначальная попытка.
(2) Еще одна проблема, с которой мы столкнулись, заключается в том, что докеру требуется собственное определение sysctl, поэтому изменение конфигурации ubuntu на самом деле ничего не дало.
У нас не было ни одного отключения за 5 дней.