Назад | Перейти на главную страницу

Как узнать причину отмены регистрации экземпляра задачи?

У нас есть множество сервисов, работающих в ECS. Все они настроены на запуск как минимум двух экземпляров. С некоторыми службами я заметил, что через нерегулярные промежутки времени регистрация одного из экземпляров отменяется. В журналах ошибок нет, и проверка работоспособности никогда не дает сбоев. Поэтому мне интересно, почему ECS решает отменить регистрацию, казалось бы, отлично работающего экземпляра задачи ECS? Есть ли способ узнать причину?

Это значительно упростило бы принятие решения о том, что нужно сделать для его стабилизации.

Есть несколько способов отладить это:

  • Очевидно, что журналы помогают обнаружить причину неисправности экземпляра. Если вы используете ELB с проверкой работоспособности, вы захотите проверить свои журналы доступа, чтобы узнать, вернула ли конечная точка проверки работоспособность ответ об ошибке. Вы сказали, что ничего не видели в журналах, но я подумал, что упомяну об этом для всех, кто увидит этот ответ в будущем, если он поможет в их случае.
  • Проверить Вкладка События на странице услуги у которого был умер экземпляр - когда задачи регистрируются или отменяются, ECS записывает событие в список событий. Тем не менее, вы захотите проверить это вскоре после того, как событие произойдет, поскольку в списке событий будут отображаться только самые последние события.
  • Если у вас есть информационная страница для задачи, открытая до того, как задача завершится, в области определения контейнера может быть указана информация в разделе причины выхода. Как и на странице событий, снятая с регистрации задача в конечном итоге будет удалена по прошествии определенного периода времени, поэтому рекомендуется выполнить проверку вскоре после удаления задачи.
  • Если ничего из вышеперечисленного не работает, попробуйте создать панель управления CloudWatch. Использовать Статистика HTTPCode_ELB_5XX_Count для ALB / ELB, сидящего перед службой - обычно это 504 секунды, указывающие на тайм-аут (включение ведения журнала S3 для ELB скажет вам наверняка), и вы можете найти повышенную частоту ответов в 5XX, если задача умирает из-за тайм-аутов во время проверки работоспособности, поэтому это может указать вам правильное направление - однако обратите внимание, что такое событие обязательно также быть зарегистрированным в списке событий для службы.