Я провожу мониторинг Nagios с помощью пассивных предупреждений. У меня странное поведение: Nagios получает пассивные предупреждения, но Nagios настаивает на том, что предупреждения устарели.
Вот некоторые записи; почему Nagios продолжает генерировать SERVICE ALERT
если OK
результат только что был получен?
[1527969438] EXTERNAL COMMAND: PROCESS_SERVICE_CHECK_RESULT;ldap-uat-sh.example.com;ldap_base;0;OK
[1527969440] PASSIVE SERVICE CHECK: ldap-uat-sh.example.com;ldap_base;0;OK
[1527969440] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;OK;HARD;6;OK
[1527969440] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;1;CRITICAL: Passive check is stale
[1527969440] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;2;CRITICAL: Passive check is stale
...
[1527969440] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;HARD;6;CRITICAL: Passive check is stale
[1527969851] EXTERNAL COMMAND: PROCESS_SERVICE_CHECK_RESULT;ldap-uat-sh.example.com;ldap_base;0;OK
[1527969855] PASSIVE SERVICE CHECK: ldap-uat-sh.example.com;ldap_base;0;OK
[1527969855] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;OK;HARD;6;OK
[1527969855] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;1;CRITICAL: Passive check is stale
[1527969855] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;2;CRITICAL: Passive check is stale
...
[1527969860] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;HARD;6;CRITICAL: Passive check is stale
[1527970279] EXTERNAL COMMAND: PROCESS_SERVICE_CHECK_RESULT;ldap-uat-sh.example.com;ldap_base;0;OK
[1527970280] PASSIVE SERVICE CHECK: ldap-uat-sh.example.com;ldap_base;0;OK
[1527970280] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;OK;HARD;6;OK
[1527970285] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;1;CRITICAL: Passive check is stale
[1527970285] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;SOFT;2;CRITICAL: Passive check is stale
...
[1527970295] SERVICE ALERT: ldap-uat-sh.example.com;ldap_base;CRITICAL;HARD;6;CRITICAL: Passive check is stale
Вот соответствующая конфигурация:
define service {
use ldap-nprod-service-template
hostgroup_name ldap-aws-uat-all-hostgroup
service_description ldap_base
active_checks_enabled 0
passive_checks_enabled 1
check_freshness 1
freshness_threshold 900
check_command check_freshness_critical
}
define host {
use ldap-nprod-host-template
host_name ldap-uat-sh.example.com
alias ldap-uat-sh.example.com
address ldap-uat-sh.example.com
check_command check_dummy_host
}
define hostgroup {
hostgroup_name ldap-aws-uat-all-hostgroup
alias LDAP AWS UAT ALL Group
members ldap-uat-sh.example.com
}
Я удалил проблемные мониторы из Nagios, перезапустил Nagios, а затем снова добавил мониторы. Это устранило проблему.
Я предполагаю, что есть ошибка в том, как Nagios определяет, когда он колеблется, и время, когда он получает пассивные предупреждения, может привести его в это странное состояние.