Я использую prometheus и alertmanager, чтобы отправлять сообщения в слабину при срабатывании предупреждений. Оба они размещены в Кубе. Проблемы с PII не позволяют мне использовать управляемое инструментальное решение.
Я ищу варианты, которые позволят мне сразу увидеть текущее состояние всех предупреждений. На данный момент системный сбой может вызвать от 1 до 20 предупреждений, проявляющихся в виде 1-40 сообщений о резерве (по одному для высокого уровня оповещения и низкого уровня оповещения), и это достаточно шумно, чтобы я мог что-то пропустить.
Я бы предпочел инструмент, который отправляет, скажем, одно сообщение о резерве каждые десять минут и продолжает редактировать его при изменении статуса.
Я экспериментировал с панелями управления Grafana, но обнаружил, что это непрактично, потому что кто-то редко его проверяет заранее.
Как вы, ребята, эффективно наблюдаете за состоянием ваших систем?
Хорошая система мониторинга проинформирует вас, не обращаясь к конкретному прометею. обе способами: он сообщает вам то, что, по его мнению, вам нужно знать, и позволяет найти то, что вы хотите знать, как можно быстрее и эффективнее.
Лично я предпочитаю NAGIOS, потому что у него довольно сложная сторона оповещения (несколько каналов оповещения, периоды отключения, подтверждения и эскалации и т. взгляд.
Мои личные фавориты для последнего - это (а) карта сети в режиме «кругового баллона», что позволяет мне сразу увидеть состояние около сотни узлов, выполняющих почти тысячу проверок служб, и (б) «необработанные проблемы обслуживания» "вид, который дает мне подробный список все это сейчас не в моей сети.
Но любой инструмент, который делает обе вещи эффективно (информирует вас и дает вам резюме) должно помочь. Попробуйте несколько, пока не найдете тот, который вам подходит.