У меня есть машина Nagios, которая контролирует многие серверы Linux \ Windows. Я начал работать здесь около недели назад и получил задание навести порядок в Nagios. В рамках моего заказа мне пришлось добавить еще 2 Linux-сервера к Nagios. Я установил nagios-plugins и nrpe на обеих машинах, кроме того, я убедился, что порт 5666 открыт и прослушивается на обоих серверах, и я вижу, что nrpe работает в ps -aux | grep nrpe. Пользователь, который запускает плагины, является root. ** РЕДАКТИРОВАТЬ: nrpe настроен для работы в качестве демона, поэтому xinetd здесь не играет роли, кроме того, проверка / var / log / messages | grep nrpe возвращает:
Sep 27 12:29:25 search-uk-1 nrpe[11708]: Starting up daemon
Sep 27 12:29:25 search-uk-1 nrpe[11708]: Listening for connections on port 5666
Sep 27 12:29:25 search-uk-1 nrpe[11708]: Allowing connections from: avalon.office.incredimail.com,avalon.qa.incredimail.com,lu2.int.incredimail.com,lu2.ext.incredimail.com,206.82.140.185
Sep 27 12:30:54 search-uk-1 nrpe[11753]: Error: Could not complete SSL handshake. 1
Sep 27 12:37:33 search-uk-1 nrpe[11708]: Caught SIGTERM - shutting down...
Sep 27 12:37:33 search-uk-1 nrpe[11708]: Cannot remove pidfile '/var/run/nrpe.pid' - check your privileges.
Sep 27 12:37:33 search-uk-1 nrpe[11708]: Daemon shutdown
Sep 27 12:37:33 search-uk-1 nrpe[12114]: Starting up daemon
SSL не включен ни на одном из серверов, которые правильно отслеживаются через Nagios. Запуск теста check_nrpe с самого сервера Nagios на удаленный возвращает:
[root@lu2 ~]# /usr/lib/nagios/plugins/check_nrpe -H 10.0.80.98 -p 5666
NRPE v2.12
[root@lu2 ~]#
Это содержимое /etc/nagios/nrpe.cfg:
log_facility=daemon
pid_file=/var/run/nrpe.pid
server_port=5666
nrpe_user=nagios
nrpe_group=nagios
allowed_hosts=127.0.0.1
dont_blame_nrpe=0
debug=0
command_timeout=60
connection_timeout=300
command[check_users]=/usr/lib/nagios/plugins/check_users -w 5 -c 10
command[check_load]=/usr/lib/nagios/plugins/check_load -w 15,10,5 -c 30,25,20
command[check_hda1]=/usr/lib/nagios/plugins/check_disk -w 20% -c 10% -p /dev/mapper/VolGroup-lv_root
command[check_zombie_procs]=/usr/lib/nagios/plugins/check_procs -w 5 -c 10 -s Z
command[check_total_procs]=/usr/lib/nagios/plugins/check_procs -w 150 -c 200
include=/etc/nagios/command-im.cfg
Я сравнил этот файл с файлом одного из работающих хостов, отслеживаемых Nagios, и не обнаружил никакой разницы. Выполнение команд вручную возвращает правильные значения.
Ни одна из служб не работает на каждом из двух серверов:
Ваша помощь очень ценится.
Я вижу одну конкретную проблему: ваш allowed_hosts в вашем nrpe.conf (на клиенте) должен быть установлен на IP-адрес главного хоста монитора nagios. Установка этого на локальный хост означает, что ваш клиент и главный монитор являются одним и тем же хостом (то есть локальным), что маловероятно.
Другая ситуация, иногда удаленные плагины не имеют включенного шифрования, поэтому, когда nagios выдает команду, соединение с удаленным npre не работает. Вы можете попробовать проверить nrpe с кодировкой SSL и без нее с помощью переключателя -n на check_nrpe.
В любом случае используйте команду / usr / lib / nagios / plugins / check_nrpe и проверьте nrpe удаленного хоста с главного сервера монитора nagios. Так вы получите много информации.
EX: / usr / lib / nagios / plugins / check_nrpe -H ИМЯ ХОСТА
Если nrpe не запущен на отслеживаемом хосте, вы ничего не получите обратно.
В большинстве случаев это проблема с разрешениями ... запустите плагины с заданными параметрами в оболочке su, запущенной от имени пользователя, который обычно их выполняет, и проверьте, где они не работают.