Я контролирую ~ 100 удаленных хостов через VPN, используя check_snmp_process.pl. В течение многих месяцев это работало нормально. На выходных я начал видеть ОШИБКА: сигнал тревоги (тайм-аут Nagios) ошибки практически от каждого хоста / процесса. Я могу использовать команду в командной строке и получить успешный ответ, поэтому я не понимаю, почему при нормальном использовании время ожидания истекает.
Этим утром я попытался увеличить параметр «таймаут» в плагине до 20 секунд. Примерно в течение часа это работало, а затем через несколько минут количество отказов вернулось к прежнему уровню.
Похоже, что VPN-сервер не испытывает аномальной нагрузки. И машина nagios тоже.
Предложения о том, где еще искать источник этого?
Машина Nagios: CentOS 6.5
Версия Nagios: 3.5.1
Версия плагина: 1.10
РЕДАКТИРОВАТЬ: когда происходит «массовый тайм-аут», все происходит в течение нескольких секунд. Все хосты показывают в отчете одно и то же время (+ - 5 секунд). Это может быть связано с тем, что nagios принудительно выполняет повторные проверки «осиротевших процессов» после перезапуска службы. Пока не уверен. Это кажется зловещим, когда 40-50 таймаутов сразу попадают в лог.
У меня была такая же проблема, но после редактирования скрипта check_snmp_process.pl тайм-аут с 15 до 40 все заработало. мой $ TIMEOUT = 40;