Есть ли смысл контролировать свободную память и использование ЦП на серверах?

Я слежу за инфраструктурой своих серверов с помощью Icinga2 с некоторыми конфигурациями главный / вспомогательный.

На хостах Linux и Windows я отслеживаю системные показатели по умолчанию, такие как использование процессора и свободная системная память. На рабочих узлах эти значения часто могут достигать 100% (или 5% свободной оперативной памяти), и поэтому я получаю много КРИТИЧЕСКИХ сигналов тревоги, которые на самом деле не беспокоят.

Итак, не лучше ли:

просто избегайте мониторинга свободной памяти и использования ЦП
установить критические тревоги на 0% для свободной памяти и 100% для загрузки ЦП
продолжать следить за ними, но без предупреждений
просто отказаться от предупреждений
что еще?

Вам необходимо адаптировать пороги мониторинга к значениям, которые имеют смысл для вашей конкретной среды.

Например, на вычислительном узле мы хотим, чтобы загрузка ЦП составляла 100%, поэтому это не пригодный порог для предупреждений. Однако наличие средней нагрузки, которая постоянно превышает количество ядер, или большое время ожидания ввода-вывода может указывать на наличие проблем, поэтому соблюдайте эти значения в этом случае и соответственно устанавливайте предупреждения.

Кроме того: если вы не используете значение в качестве порога предупреждения, вы не необходимость для мониторинга, но вы все равно можете сделать это для ведения статистики использования, если она вам нужна. Еще раз: зависит от вашего окружения.

О, и никогда не бывает предупреждений, которые вы отбрасываете. Это приводит к усталости от предупреждений, и в какой-то момент вы можете проигнорировать важное предупреждение, потому что оно тонет во всем этом шуме. Если вы не хотите реагировать на предупреждение, удалите его.