возникла небольшая проблема с системой Nagios, которую мы используем в нашем офисе, которая только недавно начала появляться.
то, что я хотел бы знать, действительно является лучшим решением этой проблемы, поскольку я немного прочитал об этом, и, похоже, есть много разных способов решить эту проблему.
в основном в случайные моменты в течение дня и на случайных хостах / сервисах мы получаем Критическое предупреждение, помеченное, что что-то не работает должным образом, когда мы исследуем 9 раз из 10, мы получаем это как сообщение об ошибке.
"SERVICE ALERT: SERVERNAME ;NSClient++ Version;CRITICAL;SOFT;1;CRITICAL - Socket timeout after 10 seconds"
указывает, что у службы или хоста истекло время ожидания, где мне установить время ожидания, чтобы это прекратилось? Я читал, что время ожидания некоторых плагинов составляет всего 10 секунд ...
спасибо Крис
Как правило, с любой службой вы иногда получаете их, если сервер слишком занят, чтобы отвечать, сбой в сети и т. Д. Вы можете попытаться проверить, не загружен ли сервер, когда вы получите эти предупреждения.
Думаю, главное, на что стоит обратить внимание, - это max_check_attempts
директива, связанная со службой или шаблоном службы, поэтому вы не получите предупреждение, пока проверка не перейдет в критическое состояние несколько раз подряд. Вы также можете настроить значение тайм-аута check_nt
плагин с -t
переключатель:
-t, --timeout=INTEGER
Seconds before connection attempt times out (default: 10)
Я бы также рекомендовал проверить NSClient на контролируемом хосте.