У нас есть веб-приложение и API, размещенные на Amazon AWS, с тремя средами - разработка (dev), тестирование / постановка (uat) и live. В каждой среде есть балансировщик нагрузки, два экземпляра EC2 и база данных RDS. Мы относительно новички в AWS и в некоторой степени учимся по ходу дела, но в целом он работает для нас довольно хорошо.
В 08:25 в среду утром мы увидели внезапное увеличение времени отклика ящиков в среде разработки:
В трех средах используется один и тот же код и одна и та же схема данных. Нет соответствующего увеличения сетевой активности, загрузки ЦП, активности чтения / записи на диск. Никто из нас не имеет ни малейшего представления о том, что вызвало это внезапное увеличение, или что мы можем сделать для его устранения. Некоторые люди сказали: «О, это просто облачные вычисления для вас», но я не могу полностью согласиться с тем, что хостинг на AWS просто означает, что иногда весь ваш веб-сайт замедляется на 1 секунду на запрос без причины, и вы просто пожимаете плечами и игнорируй это.
Какие мои следующие шаги здесь? Как мне решить проблему, подобную этой?
Следующий шаг - обратитесь в службу поддержки AWS (откройте заявку) и объясните проблему - попросите их просмотреть журналы ELB. Они могут заявить, что все в порядке, но если проблема повторяется, вам повезло - вы можете потребовать живую поддержку во время происшествия.