Вчера вечером (в воскресенье вечером в 22:00) у нас произошел круговой обход, в результате которого были отключены все внешние COMM ... поэтому оповещения на наших серверах внутри здания не могли передаваться. Есть ли этому решение? возможно, SAAS, который отслеживает / проверяет наши серверы, а затем предупреждает, если есть сбой COMM (в дополнение к предупреждению о фактических сбоях, регистрируемых нашим мониторингом сервера)
(Мы небольшая компания, поэтому вряд ли захотим тратить деньги на средства связи, когда основное и дополнительное подключение к Интернету отключаются одновременно, как прошлой ночью)
Это событие было необычным для нас, мы обычно не получаем поддержку из постели (например, при сбое одной точки) в воскресенье вечером ... но общий сбой связи немного отличается, поскольку у нас есть люди, желающие подключиться в 05:00 (по местному времени) в понедельник утром ... и они не могли связаться со службой поддержки, пока ИТ-персонал не прибыл в офис в 08:00.
У нас есть серверы на 4 сайтах, поэтому можно использовать каждый сайт для предупреждения, если он не может связаться с одним из других. Я бы предпочел что-то более сложное, чтобы мы могли создать критическое предупреждение, если все 3 сайта не могут связаться с 4-м сайтом (и на самом деле ключевой критический сбой заключается в том, что «никакие дочерние сайты не могут связываться с основным сайтом штаб-квартиры»)
Мы используем «живые серверы» для некоторой части нашего мониторинга, поэтому одним из вариантов было бы использовать «живые серверы» для создания веб-страниц на каждом сайте, чтобы служба поддержки могла просматривать их, чтобы видеть статус и временную метку сбоя, видимую каждым сайтом. Это также дало бы возможность предупреждать, если PING от сайта A до Site-B не прошел, но мы находимся в сельской местности и получаем довольно много периодических сбоев PING одного сайта-A-to-B ...
Моим идеалом была бы служба удаленного мониторинга, которую можно было бы настроить так, чтобы она повышалась до критической только тогда, когда определенные комбинации тестов терпят неудачу - например, всем удаленным сайтам не удается выполнить эхо-запрос PING для сайта основной штаб-квартиры.
Я вижу, у вас уже есть несколько правильных идей, но вот еще одна:
Комбинация чего-то вроде https://datadoghq.com и https://pagerduty.com вероятно, может решить эту проблему за несколько долларов в месяц.
Ваша проблема здесь в том, что ваше решение для мониторинга (ServersAlive) зависит от инфраструктуры, которую оно отслеживает. Вы можете подойти к этому несколькими способами, один из которых вы уже предложили.
Настройте проверку ServersAlive на каждом сайте, чтобы проверить компонент на каждом из других сайтов (веб-сайт, пинг и т. Д.). Затем настройте внешний монитор (Uptime Robot и т. Д.) Для мониторинга компонента на каждом сайте (веб-сайт, пинг и т. Д.). Затем на основе получаемых предупреждений вы сможете определить, является ли проблема внутренней, подключением к Интернету и т. Д.
Другой вариант - настроить ServersAlive на каждом сайте для мониторинга всех компонентов на других сайтах. Итак, SiteA контролирует SiteB, SiteB контролирует SiteC и т. Д. Таким образом, ваш мониторинг на каждом сайте не зависит от отслеживаемой инфраструктуры.