Назад | Перейти на главную страницу

проверка службы nagios

Я новичок в nagios, и у нас есть небольшая проблема, с которой мне нужно обратиться за помощью. Многие машины, которые мы отслеживаем, могут некоторое время не отвечать, когда выполняются очень интенсивные задачи процессора. Это заставляет nagios отправлять предупреждения и оповещения, пока эти хосты заняты сообщением о таких вещах, как «таймаут ping» или «процессы зомби», и даже предупреждения о пространстве подкачки, но на самом деле это не проблема.

Есть ли способ настроить nagios так, чтобы он не отправлял такие предупреждения, а проверял x количество раз в течение определенного периода времени и только затем отправлял предупреждение в конце этого времени, если рассматриваемый сервер не восстановился?

Посмотрев на файл commands.cfg, я вижу такие записи:

define command{
        command_name    check_local_swap
        command_line    $USER1$/check_swap -w $ARG1$ -c $ARG2$
        }

Как я могу изменить этот пример, чтобы достичь того, что я хочу выше.

Спасибо

nagios

Во-первых, вы можете изменить параметры рассматриваемых чеков, настроив check_command директива (и):

Например:

    check_command           check_nrpe!check_zombie_procs!1 5

Если вы хотите терпеть больше зомби-процессов, просто увеличивайте количество.

Как только вы настроите пороговые значения по своему вкусу, вы можете дополнительно отсечь ложные предупреждения, увеличив max_check_attempts.

Например:

max_check_attempts      3

Это позволяет хосту / службе войти в "мягкое" состояние, не соответствующее норме, в ожидании двух дальнейших проверок; вы будете предупреждены о третьем.

Думаю, вы говорите о проблеме "взмахов".

Ознакомьтесь с этой страницей об обработке хлопая под Nagios: