Я запускаю 3 узла Swarm, один локальный 2-ядерный менеджер и два небольших рабочих (2-ядерных) на AWS.
Сегодня у меня возникла проблема с DNS, и менеджер потерял связь с рабочими.
После резервного копирования диспетчера он попытался запустить все службы самостоятельно, и через несколько секунд работы службы докеров весь узел оказался вне памяти и завис. То же случилось и с рабочими.
На самом деле я не могу восстановить рабочих, потому что они замерзают в течение нескольких секунд.
Это происходило несколько раз за последние месяцы, но это был первый раз, когда я не могла полностью восстановиться.
Я уже установил ограничения для процессора и памяти, а сейчас я установил ограничения для узлов, поэтому большинство сервисов не будут запускаться в случае полного сбоя.
Как этого избежать? Есть ли лучшие меры?
Извините за длинный пост, но, скорее всего, кто-то задал бы эти вопросы позже.