Назад | Перейти на главную страницу

Внешний мониторинг показывает сбой в нескольких регионах и типах услуг. Azure не показывает сбоев

Я использую службу под названием Monitis, чтобы отслеживать время безотказной работы некоторых моих веб-ресурсов. По сути, он проверяет мои ресурсы из трех географических точек (Западная часть США, Восточная часть США и Средняя часть США) и выдает предупреждение, если два или более из них обнаруживают время отклика более 10 секунд в течение длительного периода времени.

В субботу три моих ресурса, все из которых находятся в Azure, зарегистрировали 18-минутный сбой из всех трех точек проверки связи одновременно:
(Время указано для часового пояса Японии. Это соответствует 4: 10–4: 28 по тихоокеанскому времени 21 октября)

Из этих,
[зеленый] - это имя хоста для двух идентичных веб-приложений, одного на западе США и одного на востоке США, сбалансированных с помощью диспетчера трафика. Ошибка в Monitis включает IP-адрес службы Востока США, поэтому кажется, что имя хоста преобразовывалось в службу Востока США, когда Monitis попытался проверить связь с ней.
[пурпурный] - веб-приложение в центрально-северной части США, масштабированное до двух экземпляров S1.
[синий] - виртуальная машина на востоке США.

У меня есть четвертая служба Azure, которую отслеживает Monitis, виртуальная машина на западе США. В отличие от других, Monitis настроен на отправку эхо-запросов из США, Австралии и Германии. Для этого пинг из US-MID показал отключение в то же время, но эхо-запросы из Австралии и Германии не показали сбоя.

Я проверил диаграммы мониторинга в Azure для двух веб-приложений, и ни одно из них не показывает время простоя в течение указанного периода. Оба показывают входящие и исходящие запросы в течение определенного периода времени, и ни один экземпляр не перезагружается. [зеленый] имеет небольшой рост активности в течение периода времени, но ничего необычного.

Виртуальная машина сообщает, что работает с сентября, и не показывает ничего необычного в журнале системных событий во время предполагаемого отключения.

Мои вопросы:

  1. Есть ли способ узнать, что здесь произошло? Как указано выше, Azure указывает на отсутствие прерывания активности, но очень похоже, что прерывание было.
  2. Почему Monitis показывает 18-минутный сбой для нескольких типов служб в нескольких регионах Azure? Если в это время в сетевой инфраструктуре Azure произошел сбой, в истории состояния Azure нет никаких признаков этого. Также странно, что веб-приложения, похоже, сообщают о получении и обслуживании запросов во время предполагаемого отключения.
  3. Служба, отмеченная [зеленым], настроена в диспетчере трафика с идентичной службой на западе США, поэтому, по-видимому, Monitis должен был быть перенаправлен на службу США-запад, когда служба США-Восток стала недоступной, но похоже, что это не так. не случилось. Вы можете подумать, почему это не сработало? Было бы разумно, если бы Azure считал, что служба работоспособна все время, но как я могу справиться с ситуацией, когда один регион становится недоступным, если диспетчер трафика не перенаправляет трафик?