Nagios обновлен с 3.5.1 до 4.0.8
Я хотел спросить об этом на форуме поддержки nagios, но через час я не получил письмо с подтверждением для настройки моей учетной записи ...
Кажется, что nagios работает нормально как служба, но веб-интерфейсы CGI не работают, и ошибок нет ни в error.log для apache, ни в nagios.log. Я проверил разрешение и посмотрел на код C со встроенной ошибкой:
Ой! Ошибка: не удалось прочитать информацию о состоянии хоста и службы!
Такая же ошибка появляется почти для каждого меню в левой части главной страницы для nagios.
nagios.log выглядит так при запуске и остановке из инициализации:
[1431102009] Nagios 4.0.8 starting... (PID=27779)
[1431102009] Local time is Fri May 08 13:20:09 ADT 2015
[1431102009] LOG VERSION: 2.0
[1431102009] qh: Socket '/usr/local/nagios/var/rw/query.sh' successfully initialized
[1431102009] qh: core query handler registered
[1431102009] nerd: Channel hostchecks registered successfully
[1431102009] nerd: Channel servicechecks registered successfully
[1431102009] nerd: Channel opathchecks registered successfully
[1431102009] nerd: Fully initialized and ready to rock!
[1431102009] wproc: Successfully registered manager as @wproc with query handler
[1431102009] wproc: Registry request: name=Core Worker 27785;pid=27785
[1431102009] wproc: Registry request: name=Core Worker 27786;pid=27786
[1431102009] wproc: Registry request: name=Core Worker 27782;pid=27782
[1431102009] wproc: Registry request: name=Core Worker 27781;pid=27781
[1431102009] wproc: Registry request: name=Core Worker 27783;pid=27783
[1431102009] wproc: Registry request: name=Core Worker 27784;pid=27784
[1431102009] Successfully launched command file worker with pid 27787
[1431102022] Caught SIGTERM, shutting down...
[1431102022] Successfully shutdown... (PID=27779)
[1431102022] Event broker module 'NERD' deinitialized successfully.
Запуск с -v чист:
# /usr/local/nagios/bin/nagios -v /usr/local/nagios/etc/nagios.cfg
Nagios Core 4.0.8
Copyright (c) 2009-present Nagios Core Development Team and Community Contributors
Copyright (c) 1999-2009 Ethan Galstad
Last Modified: 08-12-2014
License: GPL
Website: http://www.nagios.org
Reading configuration data...
Read main config file okay...
Read object config files okay...
Running pre-flight check on configuration data...
Checking objects...
Checked 816 services.
Checked 826 hosts.
Checked 11 host groups.
Checked 0 service groups.
Checked 18 contacts.
Checked 13 contact groups.
Checked 61 commands.
Checked 6 time periods.
Checked 0 host escalations.
Checked 0 service escalations.
Checking for circular paths...
Checked 826 hosts
Checked 0 service dependencies
Checked 0 host dependencies
Checked 6 timeperiods
Checking global event handlers...
Checking obsessive compulsive processor commands...
Checking misc settings...
Total Warnings: 0
Total Errors: 0
Things look okay - No serious problems were detected during the pre-flight check
Также check_nagios говорит, что мы работаем нормально:
# /usr/local/nagios/libexec/check_nagios /var/log/nagios.log 5 '/usr/local/nagios/bin/nagios'
NAGIOS OK: 8 processes, status log updated 11 seconds ago
Одна из возможных причин - ошибка означает, что он не может получить доступ к файлу nagios.cfg. Я проверил, что путь к нему - r-x для «другого» (чтобы охватить пользователя apache) во всех каталогах на пути. В любом случае, если возникла проблема с разрешением, это должно привести к ошибке apache. Я работал над этим пару часов и не могу найти точку отказа или что изменилось.
На главной странице также отображается сообщение «Не удалось получить статус процесса» под логотипом Nagios Core. Это из-за запуска statusjson.cgi в main.php - не уверен, на что он смотрит, но страница пуста, когда я запускаю запрос CGI (cgi-bin / statusjson.cgi? Query = programstatus) из main.php вручную. Я погуглил, искал на форумах nagios, но у всех остальных, похоже, есть некоторые ошибки в журнале, чтобы дать больше подсказок.
У меня есть одна аномалия ...
Я нашел еще один nagios.log, к которому при каждом запуске службы добавляется всего пара строк:
# cat /usr/local/nagios/var/nagios.log
[1431088940] Error: Cannot open main configuration file '/' for reading!
[1431088940] Error: Failed to process config file '/'. Aborting
Возможно, что-то странное с файлами init или cfg, но я не могу этого найти. В качестве еще одного теста я могу использовать nagios и запустить демон вручную.
su - nagios
[nagios@atlas ~]$ /usr/local/nagios/bin/nagios /usr/local/nagios/etc/nagios.cfg
Nagios Core 4.0.8
Copyright (c) 2009-present Nagios Core Development Team and Community Contributors
Copyright (c) 1999-2009 Ethan Galstad
Last Modified: 08-12-2014
License: GPL
Website: http://www.nagios.org
Nagios 4.0.8 starting... (PID=23234)
Local time is Fri May 08 13:45:12 ADT 2015
nerd: Channel hostchecks registered successfully
nerd: Channel servicechecks registered successfully
nerd: Channel opathchecks registered successfully
nerd: Fully initialized and ready to rock!
wproc: Successfully registered manager as @wproc with query handler
wproc: Registry request: name=Core Worker 23235;pid=23235
wproc: Registry request: name=Core Worker 23236;pid=23236
wproc: Registry request: name=Core Worker 23237;pid=23237
wproc: Registry request: name=Core Worker 23238;pid=23238
wproc: Registry request: name=Core Worker 23239;pid=23239
wproc: Registry request: name=Core Worker 23240;pid=23240
Successfully launched command file worker with pid 23241
Я надеялся, что это позволит избежать чего-нибудь необычного в сценарии инициализации. Он не затрагивает /usr/local/nagios/var/nagios.log (ожидается), но не изменяет ошибку cgis веб-сайта. Еще одна подсказка заключается в том, что когда nagios запускается вручную таким образом, я не вижу никаких журналов на экране хостов и элементов состояния. Если я запускаю init, появляются некоторые предупреждения о производительности хоста, колебании и обычном болтовне из журналов nagios, но при запуске из командной строки от имени пользователя nagios он не говорит ничего, кроме приведенного выше.
Этот вопрос в конечном итоге был отправлен на форум поддержки ядра nagios, и там он был решен.
http://support.nagios.com/forum/viewtopic.php?f=7&t=32795
В этом конкретном случае нам не хватало записей конфигурации для
state_retention status_file
но есть много разных типов ошибок, которые также могут привести к ошибке веб-интерфейса, начинающейся с «Упс!».