Я слежу за несколькими хостами с помощью Nagios. Это отлично работает, когда я использую "обычные" проверки, которые выполняются на хосте мониторинга (например, check_http
). Однако у меня проблемы с проверками на основе NRPE, которые вместо этого выполняются через службу NRPE на контролируемом хосте.
Я объявил свои собственные команды в конфигурации NRPE контролируемых хостов, например
command[check_memory]=/usr/lib/nagios/plugins/check_memory -w 20% -c 10% -u G
Затем я создал соответствующие команды Nagios в конфигурации Nagios на хосте мониторинга:
define command {
command_name my_check_nrpe
command_line /usr/lib/nagios/plugins/check_nrpe -H '$HOSTALIAS$' -c '$ARG1$'
}
define service {
use my-service
service_description Free memory
check_command my_check_nrpe!check_memory
check_interval 15
}
Эти проверки работают нормально, когда я запускаю их вручную на хосте мониторинга с помощью nagios
пользователь (который nagios
служба работает под):
nagios@monitor:~$ /usr/lib/nagios/plugins/check_nrpe -H 'my.target.host' -c 'check_memory'
MEMORY OK - 0G free | free=956080128b;419844915.2:;209922457.6:
Однако я постоянно получаю по электронной почте предупреждения от Nagios об услуге:
***** Nagios *****
Notification Type: PROBLEM
Service: Free memory
Host: my.target.host
Address: XXX.XXX.XXX.XXX
State: WARNING
Date/Time: $
Additional Info:
$
Мне не удалось получить более подробную информацию о предупреждениях. Журналы Nagios на хосте мониторинга показывают только то, что предупреждения были отправлены:
[1500623961] SERVICE NOTIFICATION: my-mailbox;my.target.host;Free memory;WARNING;notify-by-email;(null)
[1500627561] SERVICE NOTIFICATION: my-mailbox;my.target.host;Free memory;WARNING;notify-by-email;(null)
Я также активировал максимальный вывод отладки для Nagios:
debug_level=-1
debug_verbosity=2
Тем не мение, /var/lib/nagios3/nagios.debug
не содержит ничего интересного:
[1500630464.420189] [064.1] [pid=21171] Making callbacks (type 9)...
[1500630464.420243] [064.1] [pid=21171] Making callbacks (type 9)...
[1500630464.420308] [064.1] [pid=21171] Making callbacks (type 9)...
[1500630464.420389] [064.1] [pid=21171] Making callbacks (type 9)...
[1500630464.421086] [064.1] [pid=21171] Making callbacks (type 7)...
[1500630464.421767] [064.1] [pid=21174] Making callbacks (type 9)...
Точно так же я включил вывод отладки для службы NRPE на отслеживаемых хостах (debug=1
), но журналы NRPE говорят мне только, что мой check_memory
команда была успешно добавлена.
Я использую NRPE 3.0.1-3 и Nagios 3.5.1.
Как я могу решить эту проблему или собрать дополнительную информацию о проблеме?
Оказалось, что на сервере мониторинга был запущен дублирующий процесс Nagios, на который не повлиял перезапуск службы, и поэтому он продолжал использовать старую версию конфигурации с ошибками. Хотя мы не можем реконструировать, как мы закончили с двумя процессами Nagios, устранение дублирующего процесса решило проблему.