Назад | Перейти на главную страницу

Nagios3 «Код возврата 127 выходит за пределы допустимого»

Без внесения каких-либо изменений в конфигурацию nagios3 или изменения файловой системы ОС (debian), когда я внезапно добавляю несколько дополнительных устройств (к 12000+ на нем уже)

[1508925621] Warning: Return code of 127 for check of service 'PING' on host 'SOME-HOST.CISCO' was out of bounds. Make sure the plugin you're trying to run actually exists.
[1508925621] SERVICE ALERT: SOME-HOST.CISCO;PING;CRITICAL;HARD;3;(Return code of 127 is out of bounds - plugin may be missing)

Все двоичные файлы доступны для чтения / исполнения, ничего из этого не изменилось с момента установки.

Это происходит для ВСЕХ хостов этого типа, имейте в виду, что это установка, которая работала годами без перерыва, единственное, что я могу придумать, - это какой-то предел ОС при запуске проверок, поскольку это единственное, что меняется, больше хозяев. у меня было max_concurrent_checks=1500 в течение долгого времени. (Это 16-ядерный физический сервер с 24 ГБ ОЗУ)

Помимо параллельных проверок, я запускаю

check_result_reaper_frequency=25 max_check_result_reaper_time=20

Большая группа хостов настроена как таковая:

define host{
        use                     generic-cisco
        host_name               SOME_HOST.CISCO
        alias                   SOME_HOST.CISCO
        address                 xxx.xxx.xxx.xxx
        check_command   check-host-alive
        hostgroups              cisco_devices
        }

define service{
        use                     generic-service
        host_name               SOME_HOST.CISCO
        service_description     PING
        check_command           check_ping!200.0,20%!600.0,60%
        normal_check_interval   10
        retry_check_interval    5
        }

Единственное, что нужно сделать, чтобы вернуть его в рабочее состояние, - это отключить некоторые из недавно добавленных хостов, остановить и запустить, надеясь, что все будет нормально. Какие-либо предложения?

Что было исправлено, хотя у меня было много других рекомендаций по производительности, которые я не отключал enable_environment_macros Сейчас нет вмятины в производительности. По-видимому, проблема заключалась в том, что ОС пыталась сделать эти переменные среды доступными на таком количестве хостов. Вот

Мне нравится хороший фейспалм nagios.