Назад | Перейти на главную страницу

Сбой пакетного задания Amazon ECS через шесть часов

У нас есть система AWS Batch, которая обрабатывает геопространственные изображения из одной корзины S3 в другую. У него есть политика экземпляра, разрешающая ему доступ к корзинам. Система запускает довольно много параллельных задач, и большинство из них выполняется в течение нескольких минут или десятков минут. Некоторые работают значительно дольше, но НИ ОДИН не будет работать дольше шести часов.

Через шесть часов скрипт Python3, который они запускают, выдает ошибку TypeError (не ошибку прав доступа, не ошибку нехватки памяти, не какое-либо прерывание, например SIGKILL) и прекращает работу. Затем пакетное задание останавливается.

Мы могли бы предположить ошибку в нашем скрипте - за исключением того, что когда одни и те же скрипты, использующие те же самые входные данные, выполняются на EC2 (или на реальном ПК), скрипты выполняются до завершения без ошибок, даже если они выполняются дольше шести. часов.

Нам интересно, есть ли в AWS Batch какое-то внутреннее ограничение? Никаких долговременных вызовов AWS не происходит, токены сеанса успешно обновляются, мы не достигли каких-либо ограничений учетной записи, насколько мы можем судить.

amazon-ecs