Назад | Перейти на главную страницу

Check_MK: Как мне создавать уведомления на основе групп служб, а не только одной службы?

Я хотел бы иметь возможность создать уведомление, которое будет предупреждать о доступности группы услуг, а не только об одном пороге. Например, предположим, что у меня есть 10 серверов AWS, которые все делают одно и то же, и я ожидаю, что некоторые из них будут иногда перегружены / выходят из строя без ущерба для приложения: я хочу, чтобы Check_MK уведомлял меня, если 3 из 10 серверов (или выше) ) не работают в данной службе. Если что-то не получится, не уведомляйте меня. Другой пример, возможно, более простой: скажем, у вас есть точка монтирования NFS на 20 серверах с того же сервера NFS. Я не хочу получать 20 предупреждений или критических замечаний, когда могу получить только одно.

Приведенные выше примеры в моей среде уже сгруппированы в группы обслуживания.

Я пробовал три разных механизма в Check_MK 1.2.6p16:

  1. Использование бизнес-аналитики. Настройка группировки и предупреждения была фантастической, она сделала то, что я хотел! Но Правила Уведомления не допускают ничего, связанного с BI-компонентами продукта!

  2. Кластер - я настроил кластер для серверов AWS, но поскольку для некоторых из моих проверок (особенно для моей активной проверки HTTP) требуется имя хоста, это не поможет. Не думаю, что Cluster - подходящая кроличья норка, чтобы спуститься сюда, но поправьте меня, если я ошибаюсь. Я перестал смотреть на это.

  3. Service Group Alert - цель этого исходного вопроса. В логике уведомлений нет ничего, что позволяло бы мне предупреждать о доступности группы услуг.

Кто-нибудь достигнет этого с помощью Check_MK?

пример NFS будет сложным, потому что нет возможности для автоматического управления зависимостями между хостами. Здесь вам понадобится обходной путь. Вы можете правильно контролировать службы экспорта и nfs (есть проверка nfsexports, и вы также можете попробовать проверить соединения rpcinfo). Это оставит пробел, если, например, выйдет из строя брандмауэр, но если вы хорошо контролируете nfs, сосредоточьтесь на сервере.

1) BI не предупреждает напрямую, есть check_bi_aggr, на котором вам нужно будет создавать предупреждения. (Используя имена сервисов, которые он будет генерировать). Соответственно, для этого нужно настроить правила уведомлений. Он должен быстро предупредить, если вы достигнете отметки 3/10.

Затем следует изменить уведомления для отдельных служб. то есть вы устанавливаете их так, чтобы они не уведомляли в течение длительного времени. т.е. через задержку уведомления.

2) в основном бесполезен для этого, будет доволен, пока не выйдет из строя последний

3) - это в основном ограничение Nagios, забудьте об этом.