Как предотвратить зависание узлов Swarm?

Я запускаю 3 узла Swarm, один локальный 2-ядерный менеджер и два небольших рабочих (2-ядерных) на AWS.

Сегодня у меня возникла проблема с DNS, и менеджер потерял связь с рабочими.

После резервного копирования диспетчера он попытался запустить все службы самостоятельно, и через несколько секунд работы службы докеров весь узел оказался вне памяти и завис. То же случилось и с рабочими.

На самом деле я не могу восстановить рабочих, потому что они замерзают в течение нескольких секунд.

Это происходило несколько раз за последние месяцы, но это был первый раз, когда я не могла полностью восстановиться.

Я уже установил ограничения для процессора и памяти, а сейчас я установил ограничения для узлов, поэтому большинство сервисов не будут запускаться в случае полного сбоя.

Как этого избежать? Есть ли лучшие меры?

Извините за длинный пост, но, скорее всего, кто-то задал бы эти вопросы позже.