Я пытаюсь добавить узел к существующему мастеру munin (который я не настраивал, но который, похоже, работает нормально, так как показывает графики для 8 существующих узлов), и у меня возникают некоторые проблемы. Вот шаги, которые я выполнил:
Мастер
Добавлен узел в /etc/munin/munin.conf
[server.example.org]
address private.server.example.org
Каталог html мастера (соответствует конфигурации apache):
htmldir /opt/munin
Этот каталог содержит следующие файлы и папки:
ls -lh /opt/munin/
drwxr-xr-x 20 munin munin 4.0K 2011-11-07 16:15 example.org <= FOLDER NAMED AFTER OUR DOMAIN
-rw-r--r-- 1 munin munin 2.5K 2010-08-03 14:11 definitions.html
-rw-r--r-- 1 munin munin 3.0K 2010-08-03 14:11 favicon.ico
-rw-r--r-- 1 munin munin 15K 2011-11-07 16:21 index.html <= MAIN MUNIN PAGE
-rw-r--r-- 1 munin munin 1.8K 2010-08-03 14:11 logo-h.png
-rw-r--r-- 1 munin munin 473 2010-08-03 14:11 logo.png
-rw-r--r-- 1 munin munin 5.6K 2010-11-03 14:07 style.css
Нижний колонтитул index.html указывает, что этот файл создается munin динамически, поэтому я знаю, что мне не нужно трогать этот файл.
This page was generated by <a href='http://munin-monitoring.org/'>Munin</a> version 1.4.4 at 2011-11-07 16:21:30+0000 (UTC)
Каталог домена содержит папки для всех узлов. Я закончил тем, что создал один для нового узла, надеясь, что это поможет, но это не имело значения.
mkdir /opt/munin/example.org/server.example.org
chown munin:munin -R /opt/munin/example.org/server.example.org
Я убил munin-cron и перезапустил его, но это тоже не имеет значения.
$ sudo su munin munin-cron start
$ sudo ps aux | grep munin-cron
munin 26566 0.0 0.2 4092 584 ? Ss 16:35 0:00 /bin/sh -c if [ -x /usr/bin/munin-cron ]; then /usr/bin/munin-cron; fi
munin 26567 0.0 0.2 4092 576 ? S 16:35 0:00 /bin/sh /usr/bin/munin-cron
Узел Мунина
Установлен пакет munin-node
apt-get install munin-node
Изменен /etc/munin/munin-node.conf файл, чтобы разрешить доступ от мастера munin
host *
allow ^A\.B\.C\.D$ # master IP address
port 4949
Перезапуск узла munin
service munin-node start
Если я запускаю tcpdump на новом узле, я вижу, что некоторые данные обмениваются с мастером, поэтому я считаю, что на данный момент проблема связана с настройкой мастера.
Есть идеи относительно того, что я изучаю, или как я могу решить эту проблему дальше?
Дополнительное устранение неполадок
Как и посоветовали, я проверил журналы
$ grep server.example.org /var/log/munin/munin-update.log
2011/11/08 08:40:03 [WARNING] Config node server.example.org listed no services for server.example.org. Please see http://munin-monitoring.org/wiki/FAQ_no_graphs for further information.
2011/11/08 09:10:02 [INFO] Reaping Munin::Master::UpdateWorker<example.org;server.example.org>. Exit value/signal: 0/0
Предупреждение привело меня на эту страницу http://munin-monitoring.org/wiki/FAQ_no_graphs. Я следовал шагам за шагами в соответствии с рекомендациями. Хотя казалось, что символические ссылки созданы правильно, я выполнил команду munin-node-configure --shell | sh -x
которые считают, что проблема решена. На вышеупомянутой странице также рекомендуется изменить набор host_name
что я и сделал (хотя я не считаю, что это помогло, поскольку на других рабочих узлах он не настроен).
Устранение неполадок telnet было успешным к тому времени, когда я дошел до него
$ telnet private.server.example.org 4949
Trying A.B.C.D...
Connected to private.server.example.org.
Escape character is '^]'.
# munin node at server.example.org
> nodes
server.example.org
.
> list server.example.org
cpu df df_inode entropy forks fw_conntrack fw_forwarded_local fw_packets if_err_eth0 if_err_eth1 if_eth0 if_eth1 interrupts iostat iostat_ios ip_A.B.C.D irqstats load memory open_files open_inodes postfix_mailqueue postfix_mailvolume proc_pri processes swap threads uptime users vmstat
> fetch df
_dev_sda1.value 23.1295909196156
_dev.value 1.2890625
_dev_shm.value 0
_var_run.value 0.00782368542525642
_var_lock.value 0
_lib_init_rw.value 0
Я не вижу ничего явно неправильного в вашей настройке. Я предлагаю две вещи;
Читаем логи на мунин-мастер. /var/log/munin/munin-update.log
это место для начала. Если у вас есть записи, подтверждающие, что обновление прошло успешно, и вы получили rrd-файлы в /var/lib/munin/
- продолжать munin-graph.log
и munin-html.log
Убедитесь, что мастер может подключиться к адресу munin-node. Пожалуйста, проверьте с netcat
или похожие: nc private.server.example.org 4949
. Ожидаемый результат должен быть: # munin node at hostname
. Возможные ошибки - это пакеты, отбрасываемые брандмауэром (тогда как nc зависает на connect()
, отображается, если вы используете strace) или не удается разрешить имя (тогда как netcat выводит nc: getaddrinfo: Name or service not known
).
Если вы ничего не можете найти после выполнения вышеуказанного, пожалуйста, вставьте полный файл munin.conf с главного сервера (анонимизируйте числовые IP-адреса с помощью цифр, а имена хостов с каким-то фиктивным текстом, если необходимо).
Не слишком редкая ошибка; Задание cron могло быть вызвано пользователем root в какой-то момент, когда некоторые файлы принадлежат root и не могут быть обновлены пользователем munin, которому обычно требуется доступ для записи ко всем файлам в / var / lib / munin и html-каталог.
Эй, у меня была такая же проблема.
Проверьте свой файл / etc / hosts на хосте и дважды проверьте, совпадает ли первое имя хоста с тем, которое вы указали в файле конфигурации munin на сервере.
Это полностью разрушило нашу установку, пока мы не узнали.
наш / etc / host был установлен на: 1.2.3.4 hostname hostname.domain
Для Munin conf было задано hostname.domain. сервер думал, что это имя хоста, а не имя хоста. домен ..