Я ищу инструмент (или совет), который позволил бы мне отслеживать и регистрировать все инциденты, которые происходят в моей инфраструктуре.
У нас есть несколько серверов (50+), и это число будет увеличиваться в будущем, поэтому я хочу иметь лучший обзор того, что происходит или может пойти не так через месяц или около того, и помочь мне улучшить эти части система или сервис, подверженные сбоям.
Например, если на каком-то экземпляре произошел сбой веб-сервера или резервное копирование не завершилось из-за отсутствия свободного места на резервном сервере или произошла DDoS-атака, я хотел бы отметить, что (когда, почему, где, как произошло починили и так далее).
У нас есть централизованные системы мониторинга (Check_MK, Logstash + Kibana, анализаторы сетевого потока ...) и оповещения на месте, и я могу создавать отчеты о доступности напрямую из Check_MK, но этот отчет неточен, и мы делимся им с нашими клиентами. Мне нужно, чтобы это было для внутреннего пользования.
Я немного исследовал и не нашел много - нет настоящего стандарта для этого или инструмента, поэтому мне нужен совет от кого-то, кто уже занимается этим, какой инструмент использовать или, если нет инструмента (мы в значительной степени способны разработать его самостоятельно) что лучше всего, когда дело доходит до регистрации таких вещей? Что вы регистрируете?
Для этого мы используем нашу систему тикетов (atlassian jira):
Поэтому, если происходит какой-то инцидент, мы открываем новый тикет, заполняем то, что мы знаем, и поддерживаем его в актуальном состоянии и обновляем на протяжении всего инцидента. После устранения инцидента и завершения постобработки (в основном анализа основных причин) проблема закрывается.
Плюсы:
Старый ответ был не по теме из-за недопонимания. Сохраняя его для справки:
На самом деле существует несколько инструментов, которые позволяют делать то, что вы хотите.
Например:
- logstash (который вы уже знаете)
- Graylog
- Прометей
Каждый из них требует от вас определения триггеров, о которых вы будете уведомлены. Однако погружение в этот вопрос для нескольких инструментов - это слишком много для этой платформы.
Есть несколько основных областей, которые необходимо учитывать при создании действительно полезной системы мониторинга и оповещения.
Сбор / мониторинг / агрегирование:
- Доступность систем (оборудования, ПО, сервисов)
- Ошибки во время работы этих систем (журналы, правильные ответы)
- Изменения с течением времени (показатели системных параметров, то есть дисковое пространство и нагрузка, время отклика сервисов, развертывание новых версий)
Затем нужно будет определить уровни для оповещения:
- Хост / Служба вверх / вниз
- Процесс запущен
- Загрузить через x.xx, x.xx, x.xx
- Место на диске под x.xx
- Скорость увеличения объема данных более xxx МБ / день
- HTTP 500 ответов> раз в секунду
- и т.д