У меня есть сервер nagios под управлением Ubuntu с процессором Intel 2,0 ГГц, массивом RAID10 и 400 МБ ОЗУ. Он отслеживает в общей сложности 42 службы на 8 хостах, большинство из которых проверяются с помощью плагина check_http даже в течение 5 минут, некоторые каждую минуту. В последнее время нагрузка на сервер nagios была выше 4, часто до 6. Сервер также запускает cacti, собирая статистику каждую минуту для 6 хостов.
Интересно, сколько сервисов должно поддерживать подобное оборудование? Является ли нагрузка настолько высокой из-за того, что я раздвигаю границы оборудования, или это оборудование должно быть способно обрабатывать 42 проверки обслуживания плюс кактусы? Если оборудования недостаточно, следует ли мне добавить больше ОЗУ, ядер или более быстрых ядер? Какие проверки оборудования / обслуживания проводят другие?
Вам нужно выяснить, где находится ваше узкое место ...
Я запускаю монитор nagios, который проверяет более 400 хостов с помощью проверок http, ping и ssh. (наряду с множеством других пассивных проверок и nscd)
Это на сервере 2xQuadCore с 4 дисками SAS в RAID10.
Я подозреваю, что у вас есть конкуренция за ввод-вывод, так как запись в большое количество запросов очень неэффективна.
Вам нужно выяснить, какой процесс занимает ваши ресурсы. (кактусы, нагио или что-то еще)
Для проверки ввода-вывода мне нравится iotop. Установите iotop (пакет 9.04 работает с 8.04)
Но в остальном top также должен помочь вам найти свою нагрузку.
Кактусы раз в минуту довольно агрессивны. (Я бегаю на шахте с интервалом 5 м)
Один из подходов, о котором я слышал для борьбы за запись rrd, - это поместить ваши хранилища rrd на ramdisk / tmpfs. (обязательно используйте rsync, чтобы время от времени использовать постоянное хранилище)
Удачи.
Если только кактусы не создают большую часть нагрузки, вы сможете выполнить гораздо больше проверок, чем это на вашем оборудовании.
Я запускаю nagios на виртуальной машине FreeBSD, работающей на Microsoft Virtual Server, на старом ПК (Pentium 3 1 ГГц с медленным диском PATA). У виртуальной машины всего 128 МБ ОЗУ, а производительность ужасная.
Однако средняя загрузка составляет около 0,2, выполняется 158 проверок на 42 хостах.
На старом PIII с 256 МБ ОЗУ я активно отслеживаю около 230 различных сервисов. На том же аппарате работают MRTG и HylaFAX для всех входящих факсов, и это довольно удобно.
Вы должны иметь возможность запускать множество проверок nagios с этим оборудованием. Мы запускаем аналогичную настройку примерно с 70 проверками и Nagiosgraph - основное отличие заключается в добавлении оперативной памяти (это дешево, поэтому я бы увеличил размер коробки до 2 ГБ).
Попробуйте запустить команду top или ps -aux, чтобы узнать, не перегружен ли процессор, но я сомневаюсь в этом. Вы также можете проверить nagios документация по распараллеливанию чтобы увидеть, не пытается ли ваша установка выполнить слишком много проверок одновременно, а не сериализовать их.