Nagios Server отслеживает мой сервер, на котором размещена Windows Sharepoint.
Я получаю следующие 2 предупреждения в моем почтовом ящике от сервера Nagios
1. Сервис: C: \ Дисковое пространство
Состояние: КРИТИЧЕСКИЙ
Дополнительная информация:
КРИТИЧЕСКИЙ - Тайм-аут сокета через 10 секунд
2. Сервис: загрузка ЦП
Состояние: КРИТИЧЕСКИЙ
Дополнительная информация:
КРИТИЧЕСКИЙ - таймаут сокета через 10 секунд
Что я могу сделать из этого?
Проверка не может связаться с сетевой службой, которую она использует для наблюдения за вашим сервером. Я ожидал, что это либо WMI, либо NSClient. Вы не сказали, что хост не работает, поэтому я предполагаю, что nagios может пинговать хост нормально. Если служба не запущена, вы получите сообщение об отказе в соединении, но вы получаете тайм-аут сокета, что означает, что не удалось установить соединение в течение определенного промежутка времени. Учитывая, что вы можете пинговать машину и не можете добраться до сокета, я бы сказал, что на пути, вероятно, есть брандмауэр.
Требуется дополнительная информация, например:
При этом, если вы получаете их с перерывами, это может означать, что либо сервер Nagios, либо проверяемый сервер, либо сеть находятся под очень высокой нагрузкой и не могут ответить вовремя, в дополнение к тому, что уже было сказано.
Это может быть даже что-то вроде конфликта IP.
Вы также можете попробовать увеличить глобальный тайм-аут в nagios.cfg и / или тайм-аут для конкретного подключаемого модуля (обычно с ключом -t).
В качестве первого шага убедитесь, что команды проверки можно запускать локально, а затем попробуйте запустить их вручную с удаленного компьютера (все это описано в документации). В зависимости от результатов вам может потребоваться убедиться, что в брандмауэре Windows открыты соответствующие порты и что машине Nagios разрешено подключаться к хосту Windows. Как бы то ни было, эти 2 проверки обычно выполняются очень быстро, поэтому у них нет возможности истекать тайм-аут.
Всякий раз, когда я вижу подобное предупреждение, это обычно означает, что агент сервера не запущен или иным образом заблокирован от правильного ответа на команду проверки.
Приведенные вами примеры являются активными проверками (которые требуют установки агента на сервере), а не пассивными, которые просто выполняют HTTP-запрос или ping, поэтому убедитесь, что агент запущен; NSClient будет сообщать о себе как «Nagios Agent» в диспетчере управления службами на вашем целевом компьютере, в то время как NSClient ++ называет себя NSClientpp.
Если эта служба работала раньше, это мог быть периодический сбой сети.
На работе это помогает нам обнаружить некоторую нестабильную проблему с доступом к нашему внешнему центру обработки данных.
Хорошо, поскольку вы не предоставили достаточно информации относительно как эти проверки служб настроены. Я рискну предположить, что вы используете SNMP или NRPE.
Если вы используете NRPE, я настоятельно рекомендую избавиться от него, так как в прошлом у меня с ним не было ничего, кроме проблем, и это превращает управление в кошмар, поскольку вам нужно обновлять плагины на всех серверах, когда вы вносите изменения, чтобы исправить проблема.
Если, с другой стороны, вы используете SNMP для мониторинга загрузки ЦП и дискового пространства, может показаться, что ваш процесс SNMP сталкивается с проблемами при ответе. Из личного опыта я должен спросить, интенсивно ли используется машина? Я видел такое поведение в MS Windows раньше, когда оно дает процессу SNMP низкий приоритет при высокой загрузке, и, таким образом, проверки SNMP начинают давать сбой с проблемами тайм-аута. Если это никогда не сработало, я бы проверил, используете ли вы правильную строку сообщества SNMP и / или если вы используете аутентификацию на основе IP, что IP-адрес опроса имеет надлежащий доступ в конфигурации SNMP на машине.
Снова не зная как он настроен, поэтому очень сложно предоставить более подробную помощь.
Согласитесь со всем вышеизложенным. Единственное, на что я бы обязательно посмотрел, - это проверить, включили ли вы каким-либо образом SSL на чеке (что вызовет хаос) или наоборот, если вам требуется SSL, чтобы он был включен.
И, как упоминалось ранее, просмотрите локальную конфигурацию (nsclient.ini или nrpe.cfg) и выясните, к какому порту вы пытаетесь подключиться. Затем запустите Telnet с удаленного компьютера и посмотрите, сможете ли вы к нему подключиться.
если это периодическая проблема для вас, то есть вы получаете эти предупреждения только время от времени, без предупреждений и т.д., однако сервер и службы работают должным образом, скорее всего, это та же проблема, с которой я столкнулся, это связано с тайм-аутом плагина быть немного короче (в некоторых случаях всего 10 секунд).
ответ - проконсультироваться с документацией по плагинам, которые вы используете, чтобы узнать, можете ли вы продлить таймауты, а затем либо изменить свой файл commands.cfg, либо каждую конфигурацию сервера, чтобы он увеличивал период ожидания для каждой проверки.
надеюсь это поможет :)
Крис