При мониторинге работоспособности сервера некоторые сбои или предупреждения сразу становятся срочными, а другие имеют значение, только если они сохраняются. Я думаю о таких вещах, как:
Если их не устранить, они могут стать настоящими проблемами, но для их решения уже существуют фоновые службы - автоматические обновления, клиентская служба NTP и т. Д. Всегда есть небольшая задержка между возникновением проблемы и запуском этих фоновых процессов для их решения. и наш монитор отправляет серию электронных писем в этот промежуток - затем снова через минуту, когда проблема будет устранена. Обычно я просыпаюсь от большой кучи писем «ПРОБЛЕМА», каждое с соответствующим письмом «РЕШЕНИЕ», отправленным через минуту. Опасность заключается в том, что, отклонив сотню не относящихся к делу предупреждений, я могу пропустить реальное.
Итак, есть ли способ указать Icinga или Nagios сообщать о проблеме только в том случае, если она продолжается более определенного времени, скажем, 5 минут?
SvW не ошибается в том, что он пишет, но вам также следует изучить переменную max_check_attempts
, который определяет, сколько проверок должно завершиться ошибкой службы, прежде чем произойдет HARD ошибка и уведомление.
Для некоторых из моих услуг по прическе у меня есть
max_check_attempts 2
check_interval 2
retry_interval 1
Это означает, что NAGIOS будет проверять чаще, чем обычно, и как только он замечает, что что-то не так, он подождет 1 минуту, проверит еще раз, а затем уведомит. Для других сервисов, где мне все равно, пока он не отключился, у меня
max_check_attempts 12
check_interval 5
retry_interval 5
Это означает, что как только NAGIOS замечает, что что-то не так, он будет продолжать проверку каждые 5 минут, как обычно, и не сообщать мне, пока что-то не работает в течение часа.
это определенно стоит настроить ваш NAGIOS до тех пор, пока он не расскажет вам о вещах, которые вас волнуют, в то время, когда они вам небезразличны, и ни о чем другом; Система мониторинга, которая генерирует облако ложных срабатываний (т. е. отправляет вам множество уведомлений, которые вам на самом деле не нужны), почти так же бесполезна, как и система с ложноотрицательными срабатываниями (т. е. не может заметить настоящую проблему).
Вы можете определить подробные конфигурации, чтобы сообщить Nagios все подробности о проверке службы.
Посмотрите вверх check_interval
и retry_interval
config, и пока вы это делаете, узнавайте о временных периодах в целом.