Назад | Перейти на главную страницу

Throttle nagios предупреждает, если хост теряет соединение

Мы используем nagios для мониторинга нашей серверной фермы, и в целом она отлично работает. Однако время от времени хост, на котором работает nagios, теряет соединение на пару минут, что заставляет nagios полагать, что все серверы и службы, которые он отслеживает, не работают. В результате появляются сотни писем с предупреждениями, за которыми вскоре следуют сотни писем о восстановлении.

Есть ли способ настроить nagios таким образом, чтобы он проверял собственное подключение, прежде чем выпускать лавину писем с предупреждениями?

Да, вы можете установить родителей и детей. Если родитель не работает, уведомление о ребенке не дается. Однако вам необходимо правильно установить тайминги (в generic_service и generic_host или любых других шаблонах, которые вы используете), потому что, когда службы больше не доступны, он должен решить, что родитель не работает, прежде чем он отправит уведомления для этих служб.

Я сделал вот что:

# ISP gateway (first in traceroute)
define host {
        host_name   kpn-gateway
        alias       KPN Gateway
        address     1.2.3.4
        use         generic-host
        notification_period  never
        parents     experia
}

# gateway in datacenter
define host {
        host_name   duocast-gateway
        alias       Duocast gateway
        address     5.6.7.8
        use         generic-host
        parents     kpn-gateway
        contact_groups bla
}

# one of the hosts in datacenter.
define host {
        host_name   brick
        alias       host.example.com
        address     a.b.c.d
        use         generic-linux-host
        parents     duocast-gateway
        contact_groups geborsteldstaal
}