Мы запускаем новый сервер Nagios Core на сервере Ubuntu 16. Все работало нормально до сегодняшнего дня, когда внезапно сайт замедлился до ползания. Глядя на верхние результаты команд, мы видим постоянное использование 99–100% процессами nagios или * .cgi (веб-интерфейс). Ничего не изменилось. Мы также видим, что задержки опроса резко увеличились. Мы уже сталкивались с этим однажды и решили удалить установку, создать новую компиляцию и развернуть как новую. Это было несколько недель назад, а теперь мы вернулись к тому же самому. Кто-нибудь еще сталкивался с этим, у которого есть исправление? Спасибо.
top - 11:33:30 up 7 days, 22:38, 1 user, load average: 2.00, 1.91, 1.41
Tasks: 161 total, 2 running, 154 sleeping, 0 stopped, 5 zombie
%Cpu(s): 31.1 us, 3.3 sy, 0.0 ni, 63.3 id, 2.2 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 12174388 total, 7690680 free, 1430508 used, 3053200 buff/cache
KiB Swap: 4067324 total, 4067324 free, 0 used. 10267768 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
27230 nagios 20 0 782008 767708 2752 D 87.7 6.3 189:32.12 nagios
16175 www-data 20 0 781988 136336 68412 R 48.5 1.1 0:01.46 status.cgi
16174 sysadmin 20 0 41776 3836 3248 R 0.3 0.0 0:00.01 top
31422 www-data 20 0 296772 11440 3424 S 0.3 0.1 0:00.15 apache2
top - 11:33:33 up 7 days, 22:38, 1 user, load average: 2.00, 1.91, 1.41
Tasks: 161 total, 2 running, 154 sleeping, 0 stopped, 5 zombie
%Cpu(s): 24.9 us, 0.8 sy, 0.0 ni, 28.4 id, 45.9 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem : 12174388 total, 7550296 free, 1570912 used, 3053180 buff/cache
KiB Swap: 4067324 total, 4067324 free, 0 used. 10127412 avail Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
16175 www-data 20 0 922568 413956 205436 R 100.0 3.4 0:04.48 status.cgi
27230 nagios 20 0 782008 767708 2752 D 2.0 6.3 189:32.18 nagios
323 root 20 0 0 0 0 D 1.0 0.0 0:24.04 jbd2/dm-0-8
1 root 20 0 37792 5980 4144 S 0.0 0.0 0:10.31 systemd
В итоге я решил эту проблему частично, работая с сообществом на сайте Nagios. Вот решение:
1) Скачал, скомпилировал и установил рабочую сборку Nagios с Githib по их рекомендации. В версии Nagios (4.4.1) есть ошибка, из-за которой хосты / службы остаются в мягком состоянии, что приводит к более частым перепроверкам.
Отделение обслуживания: https://github.com/NagiosEnterprises/na ... дерево / обслуживание
2) Переименование файлов retention.dat и status.dat также было необходимо, поскольку каждый из них достиг размера более 8 ГБ. Предположительно, все задержки были вызваны синтаксическим анализом этих файлов.
С тех пор он отлично работает уже несколько недель, без снижения производительности. Надеюсь, это поможет другим.