На работе у меня около 30 рабочих станций Linux, которые совместно используют учетные записи пользователей и данные с NIS и NFS. Пользователи могут выключить их, если они им не нужны. Чтобы получить обзор систем, я запускаю Nagios, который отслеживает управление конфигурацией (Ansible), обновления ОС, монтирование NFS, датчики нагрузки и температуры. Это довольно хорошо работает с настроенными пределами предупреждений.
Одна из проблем заключается в том, что при выключении рабочей станции я получаю кучу уведомлений от всех отслеживаемых на ней служб. На следующий день я получил еще одну пачку писем с поправками.
Я бы очень хотел, чтобы уведомления отправлялись только тогда, когда хост был в сети. Я действительно хочу знать, когда монтирование NFS не удалось, но не когда хост в целом выключен.
По общему признанию, я изучил Nagios только достаточно, чтобы примерно настроить его, поэтому в ответе было бы уже неплохо иметь несколько ключевых слов и указателей.
Пара вещей. Во-первых, вы можете не захотеть устанавливать уведомления на уровне хоста, поскольку, похоже, вас не волнует этот статус. Во-вторых, вы не говорите, почему службы выдают предупреждения. Если это происходит из-за того, что они входят в неизвестное состояние, когда хост не работает, измените notification_options так, чтобы он был предупрежден, скажем, о критическом, предупреждении и восстановлении (c, w, r)