Назад | Перейти на главную страницу

Что может заставить балансировщик нагрузки приложения перенаправлять трафик на неподготовленный экземпляр, даже если проверка работоспособности завершается неудачно?

У меня есть среда AWS Elastic beanstalk, которая может масштабироваться от 2 до 3 экземпляров, настроенных с помощью балансировщика нагрузки приложений. В балансировщике нагрузки настроена проверка работоспособности HTTP для получения ответа 200.

Когда среда автоматически масштабируется до трех экземпляров, новый экземпляр начинает получать трафик до того, как будет готов. Если я вручную проверю URL-адрес проверки работоспособности, я вижу, что 1 из 3 раз он возвращает 404, потому что новый экземпляр не готов. Другие URL-адреса приложения тоже ошибаются, 1 из 3 раз, потому что они не существуют.

Насколько я понимаю, весь смысл URL-адреса проверки работоспособности состоит в том, чтобы справиться с этим. Итак, что могло вызвать проблему, пожалуйста?

Некоторые фрагменты информации, которые могут иметь отношение:

Подготовка экземпляра занимает много времени, потому что это приложение ASP.Net, для которого необходимо установить ARR.
В обзоре расширенной проверки работоспособности два рабочих экземпляра указаны как «Серьезные», хотя они работают правильно. У них есть пара ошибок 5xx в списке, я не уверен, почему, и поскольку на них отправляется небольшой трафик, он составляет высокий процент трафика. Как ни странно, новый не готовый экземпляр помечается как «ОК». Я не думаю, что усиленная проверка работоспособности диктует, когда балансировщик нагрузки считает экземпляр исправным, но, может быть, я ошибаюсь?
Когда я попытался связаться со службой поддержки AWS, агент отправил мне массу информации о неизменяемых обновлениях среды и непрерывных обновлениях. Насколько я понимаю, это связано с тем, как новые экземпляры доставляются oline при изменении конфигурации или новых развертываниях, и это отличается от проверок работоспособности с балансировкой нагрузки и автоматического масштабирования, поэтому не имеет значения. Но, возможно, я неправильно понял, и агенту не удалось объяснить, почему это имеет отношение к данной ситуации.

amazon-web-services elastic-beanstalk

Если я вручную проверю URL-адрес проверки работоспособности, я вижу, что 1 из 3 раз он возвращает 404, потому что новый экземпляр не готов.

Тот факт, что URL-адрес проверки работоспособности работает с исправными узлами, когда вы получаете доступ к одному из них через балансировщик, не обязательно то же самое, что URL-адрес проверки работоспособности работает правильно, когда балансировщик обращается к нему для проверки работоспособности.

Современные версии HTTP требуют, чтобы Host заголовок будет присутствовать в каждом входящем запросе, и балансировщик установит HTTP-заголовок узла на частный IP-адрес экземпляра для запросов проверки работоспособности, но будет передавать значение, установленное браузером при обычных запросах - и ваш браузер устанавливает то же самое заголовок к имени хоста, который вы используете для доступа к балансировщику.

Если вы (и ваши серверы / фреймворк / приложение) не учитываете это, и ваш сервер обрабатывает их по-разному, то все ваши экземпляры могут постоянно не проходить проверки работоспособности, несмотря на то, что ручные проверки работают, когда вы их пытаетесь. Когда происходит это состояние «все цели неработоспособны», ALB предполагает, что самым безопасным способом является пересылка трафика всем экземплярам, как если бы они все были исправны (отказоустойчивый, но не обязательно интуитивно понятный дизайн), что точно объясняет происходящее.

Если целевая группа содержит только нездоровые зарегистрированные целевые объекты, узлы балансировщика нагрузки направляют запросы по своим нездоровым целям.

https://docs.aws.amazon.com/elasticloadbalancing/latest/application/target-group-health-checks.html