Я уже давно пользуюсь nagios.
В последнее время, когда размер нашего парка серверов рос, росло и количество предупреждений от nagios. Отношение сигнал / шум стало очень низким. например. Когда общая служба выходит из строя - все мои веб-серверы с балансировкой нагрузки, которые используют эту службу и, следовательно, проверяют, запускают ли она предупреждения. Это в сочетании с возможными системными предупреждениями от этой службы, появляющимися в другом порядке, приводит к большому шуму.
Я могу потратить много времени и убедиться, что мои конфигурации nagios хороши, но это становится все более неуправляемым. Я ищу инструмент (или плагин nagios), который выполняет дедупликацию и интеллектуальное подавление предупреждений. Кроме того, я бы хотел, чтобы «проблемы» / сбои отслеживались в системе регистрации неисправностей, чтобы у каждого было одно место, где можно было бы хорошо разобраться, что происходит с проблемой. А также посмотрите архив.
Да, я могу сделать это в некоторой степени в Nagios, но это не очень хорошо.
При поиске я нашел массу инструментов ( http://www.slac.stanford.edu/xorg/nmtf/nmtf-tools.html#public ), но, похоже, никто не говорит о таких проблемах, как дедупликация, отслеживание проблем и управление
Думаю, первое, что я бы посоветовал, - это посмотреть на зависимости. Когда ваша общая служба выходит из строя, веб-серверы, использующие эту общую службу, могут быть установлены как зависимости, чтобы вы получали предупреждение только для общей службы. Если один из веб-серверов выходит из строя, а общая служба все еще отвечает, вы получите сообщение о сбое веб-сервера.
Обычно вы настраиваете Nagios так, чтобы все машины за переключателем или на определенном автоматическом выключателе имели зависимость. Когда этот коммутатор выходит из строя, нет необходимости предупреждать вас, что все 38 машин в этой стойке также не работают.
Если вы испытываете затруднения, вы можете немного изменить эскалацию, чтобы ваши метрики обслуживания по-прежнему поддерживались, но вы не так часто отправляете страницы, когда обслуживание закрывается. Обнаружение откидных створок Nagios не очень хорошо работает, но и не так уж плохо.
Что касается продажи билетов, вы можете написать сценарий уведомления о событии, который автоматически импортирует в систему сообщений о проблемах, как мы это сделали (клиенты получают некоторые экспортированные данные для своих записей), но я не исследовал возможности интеграции в существующие системы.
Я бы сказал, что ваш лучший выбор - OpenNMS с интеграцией RT или OTRS. В отличие от Nagios, это полное решение для управления SNMP с фокусом на FCAPS (отказ / конфигурация / учет / производительность / управление безопасностью). Насколько хорошо он справляется с каждой из этих категорий, зависит от разработчика. Это отличное решение для людей, которые хотят «обновить» Nagios и у которых есть сервер Cacti, который делает аналогичные вещи. Абсолютно необходима интеграция данных о производительности и неисправностях. Документация как бы отражает текущее состояние продукта, но я лично работал над этим в последнее время.
Если вы хотите попробовать, продолжайте и следуйте инструкциям по быстрому запуску на вики opennms.org, но остановитесь на «обнаружении» и взгляните на новую подготовленную функцию белая бумага. Это также отличный инструмент для миграции.
Система, основанная на событиях, обеспечивает триггеры сигналов тревоги для панели сигналов тревоги и уведомления для… уведомлений. Это могут быть телефонные звонки через звездочку, страницы, электронную почту, твиттер и т. Д. Когда вы или дежурный персонал получите уведомление, вы можете ответить на электронное письмо с рабочим «подтверждением» и получить уведомление, а в вашем билете будет указано время начала. , и т.д.
Разделение уведомлений и сигналов тревоги - отличная функция для вашего запроса на дедупликацию. В зависимости от того, что происходит, вы можете уменьшить количество этих сигналов тревоги с помощью клавиши уменьшения и получать уведомления только о пороговом значении (но при этом все сигналы тревоги будут срабатывать, чтобы у вас были данные). Есть некоторые расширенные функции корреляции, но я особо не углублялся в них.