Назад | Перейти на главную страницу

Nagios: проверить, остались ли сервисы сиротами?

Недавно я заметил, что в nagios.log:

[1366060611] Warning: The check of service 'pt-deadlock-logger' on host 'xx' looks like it was orphaned (results never came back). I'm scheduling an immediate check of the service...

Критическая проблема: после этого Nagios больше не запускает проверку. В качестве обходного пути я должен настроить обработчик событий для перезапуска Nagios всякий раз, когда вижу это предупреждение:

localhost.cfg

define service{
    use                     logfile-service
    host_name               localhost
    service_description     nagios_orphaned
    check_command           check_nagios_orphaned
    event_handler           restart_nagios
    contact_groups          admin
}

commands.cfg

define command {
    command_name    check_nagios_orphaned
    command_line    sudo $USER2$/check_logfiles --tag=orphaned --logfile=/usr/local/nagios/var/nagios.log --warningpattern="looks like it was orphaned"
}

define command {
    command_name    restart_nagios
    command_line    $USER1$/eventhandlers/restart_nagios.sh $SERVICESTATE$
}

restart_nagios.sh

#!/bin/bash

case "$1" in
        OK)
                ;;
        WARNING)
                /usr/bin/screen -S nagios -d -m sudo /etc/init.d/nagios restart
                ;;
        UNKNOWN)
                ;;
        CRITICAL)
                ;;
esac

exit 0

Я пытался обновить Nagios до последней версии:

# nagios -V

Nagios Core 3.5.0
Copyright (c) 2009-2011 Nagios Core Development Team and Community Contributors
Copyright (c) 1999-2009 Ethan Galstad
Last Modified: 03-15-2013
License: GPL

но все равно получаю это предупреждение.

Первый результат при поиске в Google: http://support.nagios.com/wiki/index.php/Nagios_XI:FAQs#Check_Services_Being_Orphaned

но я уверен, что запущен только один (родительский) процесс:

# ps -ef | grep '/usr/local/nagios/bin/nagio[s]'
nagios    8956 15155  0 18:08 ?        00:00:00 /usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg
nagios    8957 15155  0 18:08 ?        00:00:00 /usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg
nagios   15155     1  5 14:09 ?        00:13:47 /usr/local/nagios/bin/nagios -d /usr/local/nagios/etc/nagios.cfg

Более того, я не вижу Resource temporarily unavailable ошибка в файле журнала, поэтому ulimit возможность ограничения может быть исключена.

Встроенный интерпретатор Perl уже был отключен:

enable_embedded_perl=0
use_embedded_perl_implicitly=0

Есть ли другие причины?

PS: Я запускаю Nagios на Xen HVM:

# virt-what 
xen
xen-hvm

ОБНОВЛЕНИЕ Вт, 16 апреля, 22:07:09 ICT 2013

Найдите это предупреждение в каталоге исходного кода, я обнаружил:

# grep -lr 'looks like it was orphaned' nagios-3.5.0
/nagios-3.5.0/base/checks.o
/nagios-3.5.0/base/nagios
/nagios-3.5.0/base/checks.c

и это check_for_orphaned_services функция:

/* check for services that never returned from a check... */
void check_for_orphaned_services(void) {
    service *temp_service = NULL;
    time_t current_time = 0L;
    time_t expected_time = 0L;


    log_debug_info(DEBUGL_FUNCTIONS, 0, "check_for_orphaned_services()\n");

    /* get the current time */
    time(&current_time);

    /* check all services... */
    for(temp_service = service_list; temp_service != NULL; temp_service = temp_service->next) {

        /* skip services that are not currently executing */
        if(temp_service->is_executing == FALSE)
            continue;

        /* determine the time at which the check results should have come in (allow 10 minutes slack time) */
        expected_time = (time_t)(temp_service->next_check + temp_service->latency + service_check_timeout + check_reaper_interval + 600);

        /* this service was supposed to have executed a while ago, but for some reason the results haven't come back in... */
        if(expected_time < current_time) {

            /* log a warning */
            logit(NSLOG_RUNTIME_WARNING, TRUE, "Warning: The check of service '%s' on host '%s' looks like it was orphaned (results never came back).  I'm scheduling an immediate check of the service...\n", temp_service->description, temp_service->host_name);

            log_debug_info(DEBUGL_CHECKS, 1, "Service '%s' on host '%s' was orphaned, so we're scheduling an immediate check...\n", temp_service->description, temp_service->host_name);

            /* decrement the number of running service checks */
            if(currently_running_service_checks > 0)
                currently_running_service_checks--;

            /* disable the executing flag */
            temp_service->is_executing = FALSE;

            /* schedule an immediate check of the service */
            schedule_service_check(temp_service, current_time, CHECK_OPTION_ORPHAN_CHECK);
            }

        }

    return;
    }

Обновление: чт, 18 апреля, 22:32:19 ICT 2013

Чтобы подтвердить, я отредактировал исходный код, чтобы добавить значение expected_time и current_time в файл журнала. Что я получаю:

[1366294608] expected_time: 'Thu Apr 18 21:16:36 2013
', current_time: 'Thu Apr 18 21:16:48 2013
' - Warning: The check of service 'Check_MK' on host 'xx' looks like it was orphaned (results never came back).  I'm scheduling an immediate check of the service...

Перечитывая файл журнала, вижу важное сообщение:

[1366218303] Warning: A system time change of 0d 0h 0m 1s (backwards in time) has been detected. Compensating...

Похоже, виноват Зен.