Без внесения каких-либо изменений в конфигурацию nagios3 или изменения файловой системы ОС (debian), когда я внезапно добавляю несколько дополнительных устройств (к 12000+ на нем уже)
[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)
Все двоичные файлы доступны для чтения / исполнения, ничего из этого не изменилось с момента установки.
Это происходит для ВСЕХ хостов этого типа, имейте в виду, что это установка, которая работала годами без перерыва, единственное, что я могу придумать, - это какой-то предел ОС при запуске проверок, поскольку это единственное, что меняется, больше хозяев. у меня было max_concurrent_checks=1500
в течение долгого времени. (Это 16-ядерный физический сервер с 24 ГБ ОЗУ)
Помимо параллельных проверок, я запускаю
check_result_reaper_frequency=25
max_check_result_reaper_time=20
Большая группа хостов настроена как таковая:
define host{
use generic-cisco
host_name SOME_HOST.CISCO
alias SOME_HOST.CISCO
address xxx.xxx.xxx.xxx
check_command check-host-alive
hostgroups cisco_devices
}
define service{
use generic-service
host_name SOME_HOST.CISCO
service_description PING
check_command check_ping!200.0,20%!600.0,60%
normal_check_interval 10
retry_check_interval 5
}
Единственное, что нужно сделать, чтобы вернуть его в рабочее состояние, - это отключить некоторые из недавно добавленных хостов, остановить и запустить, надеясь, что все будет нормально. Какие-либо предложения?
Что было исправлено, хотя у меня было много других рекомендаций по производительности, которые я не отключал enable_environment_macros
Сейчас нет вмятины в производительности. По-видимому, проблема заключалась в том, что ОС пыталась сделать эти переменные среды доступными на таком количестве хостов. Вот
Мне нравится хороший фейспалм nagios.