Назад | Перейти на главную страницу

Nagios 4.4.1 замедляет сканирование примерно через 1 неделю при частой 100% загрузке ЦП

Мы запускаем новый сервер Nagios Core на сервере Ubuntu 16. Все работало нормально до сегодняшнего дня, когда внезапно сайт замедлился до ползания. Глядя на верхние результаты команд, мы видим постоянное использование 99–100% процессами nagios или * .cgi (веб-интерфейс). Ничего не изменилось. Мы также видим, что задержки опроса резко увеличились. Мы уже сталкивались с этим однажды и решили удалить установку, создать новую компиляцию и развернуть как новую. Это было несколько недель назад, а теперь мы вернулись к тому же самому. Кто-нибудь еще сталкивался с этим, у которого есть исправление? Спасибо.

top - 11:33:30 up 7 days, 22:38,  1 user,  load average: 2.00, 1.91, 1.41
Tasks: 161 total,   2 running, 154 sleeping,   0 stopped,   5 zombie
%Cpu(s): 31.1 us,  3.3 sy,  0.0 ni, 63.3 id,  2.2 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 12174388 total,  7690680 free,  1430508 used,  3053200 buff/cache
KiB Swap:  4067324 total,  4067324 free,        0 used. 10267768 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
27230 nagios    20   0  782008 767708   2752 D  87.7  6.3 189:32.12 nagios
16175 www-data  20   0  781988 136336  68412 R  48.5  1.1   0:01.46 status.cgi
16174 sysadmin  20   0   41776   3836   3248 R   0.3  0.0   0:00.01 top
31422 www-data  20   0  296772  11440   3424 S   0.3  0.1   0:00.15 apache2


top - 11:33:33 up 7 days, 22:38,  1 user,  load average: 2.00, 1.91, 1.41
Tasks: 161 total,   2 running, 154 sleeping,   0 stopped,   5 zombie
%Cpu(s): 24.9 us,  0.8 sy,  0.0 ni, 28.4 id, 45.9 wa,  0.0 hi,  0.0 si,  0.0 st
KiB Mem : 12174388 total,  7550296 free,  1570912 used,  3053180 buff/cache
KiB Swap:  4067324 total,  4067324 free,        0 used. 10127412 avail Mem

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU %MEM     TIME+ COMMAND
16175 www-data  20   0  922568 413956 205436 R 100.0  3.4   0:04.48 status.cgi
27230 nagios    20   0  782008 767708   2752 D   2.0  6.3 189:32.18 nagios
  323 root      20   0       0      0      0 D   1.0  0.0   0:24.04 jbd2/dm-0-8
    1 root      20   0   37792   5980   4144 S   0.0  0.0   0:10.31 systemd

В итоге я решил эту проблему частично, работая с сообществом на сайте Nagios. Вот решение:

1) Скачал, скомпилировал и установил рабочую сборку Nagios с Githib по их рекомендации. В версии Nagios (4.4.1) есть ошибка, из-за которой хосты / службы остаются в мягком состоянии, что приводит к более частым перепроверкам.

Отделение обслуживания: https://github.com/NagiosEnterprises/na ... дерево / обслуживание

2) Переименование файлов retention.dat и status.dat также было необходимо, поскольку каждый из них достиг размера более 8 ГБ. Предположительно, все задержки были вызваны синтаксическим анализом этих файлов.

С тех пор он отлично работает уже несколько недель, без снижения производительности. Надеюсь, это поможет другим.