У меня есть система мониторинга Nagios / icinga, которую я использую для мониторинга в основном компьютеров на базе Windows, на которых установлена версия NSClient ++, которая, как я обнаружил, работает, но не слишком раздражает (NSCP-0.4.1.105-x64). Это работает нормально.
Однако в последнее время я начинаю получать много случайных сообщений «Соединение отклонено хостом» от случайных служб. Обычно это только одна служба на машину, что-либо от 2-10 машин вызывает эту ошибку.
Это началось, может быть, неделю назад.
Обычно соединение, отклоненное хостом, указывает на проблему с брандмауэром или, возможно, даже на тайм-аут. но тот факт, что это только 1 из 10-15 сервисов, которые сообщают об этом, и, возможно, в течение 2-3 минут он проверяется как нормально, очень раздражает.
Я пробовал обновить установку NSclient, а также попытался уменьшить нагрузку на машину icinga, увеличив таймеры раунда и таймауты, не то чтобы она особенно высока при нагрузке около 0,15
Есть идеи, с чего начать?
На данный момент у меня около 40 серверов и 200 сервисов, и 6 из них сообщают об одной услуге с «Соединением отказано хостом», около половины из них - физические машины, другая половина - виртуальные машины.
Закончился проблемой потери пакетов в VPN между сервером мониторинга и хост-объектами.