Я слежу за инфраструктурой своих серверов с помощью Icinga2 с некоторыми конфигурациями главный / вспомогательный.
На хостах Linux и Windows я отслеживаю системные показатели по умолчанию, такие как использование процессора и свободная системная память. На рабочих узлах эти значения часто могут достигать 100% (или 5% свободной оперативной памяти), и поэтому я получаю много КРИТИЧЕСКИХ сигналов тревоги, которые на самом деле не беспокоят.
Итак, не лучше ли:
Вам необходимо адаптировать пороги мониторинга к значениям, которые имеют смысл для вашей конкретной среды.
Например, на вычислительном узле мы хотим, чтобы загрузка ЦП составляла 100%, поэтому это не пригодный порог для предупреждений. Однако наличие средней нагрузки, которая постоянно превышает количество ядер, или большое время ожидания ввода-вывода может указывать на наличие проблем, поэтому соблюдайте эти значения в этом случае и соответственно устанавливайте предупреждения.
Кроме того: если вы не используете значение в качестве порога предупреждения, вы не необходимость для мониторинга, но вы все равно можете сделать это для ведения статистики использования, если она вам нужна. Еще раз: зависит от вашего окружения.
О, и никогда не бывает предупреждений, которые вы отбрасываете. Это приводит к усталости от предупреждений, и в какой-то момент вы можете проигнорировать важное предупреждение, потому что оно тонет во всем этом шуме. Если вы не хотите реагировать на предупреждение, удалите его.