В настоящее время я использую один экземпляр Nagios. Время от времени я получаю ложные сигналы о тайм-аутах - например, он говорит, что HTTP не работает на каком-то сервере, но когда я открываю его в своем браузере через несколько секунд, он загружается быстро, и вообще никаких следов ошибки.
Что я могу сделать, чтобы уменьшить количество ложных срабатываний?
Я предполагаю, что это из-за временных проблем с сетью на моем сервере мониторинга. Я предполагаю, что установка другого сервера мониторинга в другой сети очень поможет, но как мне подключить его к Nagios?
Это вообще возможно с Nagios или мне нужно переходить на другую систему мониторинга? Мне нравятся мои конфиги и по возможности я бы хотел остаться с Nagios или чем-то совместимым (Icinga?)
Увеличьте порог срабатывания предупреждений. Например, не будет сигнала тревоги после 1 отказа. Включите сигнализацию после 3 сбоев и установите разумный интервал (1 минута, 2 минуты) между повторными проверками. Это означает, что вы будете уведомлены, если он не работает в течение 4-5 минут, а не если у вас есть «временные проблемы с сетью» на вашем сервере мониторинга.
Увеличьте пороговые значения для предупреждения. На самом деле, вам может быть лучше выполнять этот вид мониторинга с помощью сценария, который регистрирует время транзакций, отправляет уведомления в Nagios и периодически анализирует свой журнал последних циклов обработки, чтобы отправлять предупреждение только в случае развития плохой тенденции.
Это позволяет вам установить более высокий порог, чтобы он не предупреждал КАЖДУЮ транзакцию, которая занимает слишком много времени, но по-прежнему предупреждает вас, если время транзакции скользящего среднего становится слишком большим. Вы будете немного медленнее реагировать на реальную серьезную проблему, но вы не будете утомлены таким количеством ложных тревог.
В любом случае, реальные серьезные проблемы, возникшие по вашей вине (а не стихийные бедствия или действия оператора центра обработки данных), лучше решать с помощью автоматических перезапусков и перезагрузок, потому что это самый быстрый способ исправить такие проблемы, если они легко устранимы. И если их нелегко исправить, задержка в пару минут, вызванная более высоким порогом, не будет иметь реального значения для того, как вы восстановитесь после проблемы.
Не бойтесь экспериментировать с порогами. Когда вы готовы реагировать на сигналы тревоги, поэкспериментируйте с более низкими порогами и посмотрите, что произойдет. Поднимите пороговые значения, когда вы выходите на свидание, а потом сделайте обзор, чтобы увидеть, было ли упущено что-нибудь важное.
Для начала необходимо выяснить причину, по которой истекает время ожидания http-запроса.
Если у вас более 50 серверов и более 5 отслеживаемых значений на каждый сервер, вероятно, виноват сам Nagios.
Он генерирует запрос для каждого события мониторинга и создает множество сетевых прерываний.
Вместо повышения порога срабатывания предупреждений вы можете изменить значения тайм-аута и повтора в http-check-method.