Я новичок в nagios, и у нас есть небольшая проблема, с которой мне нужно обратиться за помощью. Многие машины, которые мы отслеживаем, могут некоторое время не отвечать, когда выполняются очень интенсивные задачи процессора. Это заставляет nagios отправлять предупреждения и оповещения, пока эти хосты заняты сообщением о таких вещах, как «таймаут ping» или «процессы зомби», и даже предупреждения о пространстве подкачки, но на самом деле это не проблема.
Есть ли способ настроить nagios так, чтобы он не отправлял такие предупреждения, а проверял x количество раз в течение определенного периода времени и только затем отправлял предупреждение в конце этого времени, если рассматриваемый сервер не восстановился?
Посмотрев на файл commands.cfg, я вижу такие записи:
define command{
command_name check_local_swap
command_line $USER1$/check_swap -w $ARG1$ -c $ARG2$
}
Как я могу изменить этот пример, чтобы достичь того, что я хочу выше.
Спасибо
Во-первых, вы можете изменить параметры рассматриваемых чеков, настроив check_command
директива (и):
Например:
check_command check_nrpe!check_zombie_procs!1 5
Если вы хотите терпеть больше зомби-процессов, просто увеличивайте количество.
Как только вы настроите пороговые значения по своему вкусу, вы можете дополнительно отсечь ложные предупреждения, увеличив max_check_attempts
.
Например:
max_check_attempts 3
Это позволяет хосту / службе войти в "мягкое" состояние, не соответствующее норме, в ожидании двух дальнейших проверок; вы будете предупреждены о третьем.
Смотрите также: Типы состояний Nagios, Определения объектов Nagios
Думаю, вы говорите о проблеме "взмахов".
Ознакомьтесь с этой страницей об обработке хлопая под Nagios: