Мы используем nagios для мониторинга нашей серверной фермы, и в целом она отлично работает. Однако время от времени хост, на котором работает nagios, теряет соединение на пару минут, что заставляет nagios полагать, что все серверы и службы, которые он отслеживает, не работают. В результате появляются сотни писем с предупреждениями, за которыми вскоре следуют сотни писем о восстановлении.
Есть ли способ настроить nagios таким образом, чтобы он проверял собственное подключение, прежде чем выпускать лавину писем с предупреждениями?
Да, вы можете установить родителей и детей. Если родитель не работает, уведомление о ребенке не дается. Однако вам необходимо правильно установить тайминги (в generic_service и generic_host или любых других шаблонах, которые вы используете), потому что, когда службы больше не доступны, он должен решить, что родитель не работает, прежде чем он отправит уведомления для этих служб.
Я сделал вот что:
# ISP gateway (first in traceroute)
define host {
host_name kpn-gateway
alias KPN Gateway
address 1.2.3.4
use generic-host
notification_period never
parents experia
}
# gateway in datacenter
define host {
host_name duocast-gateway
alias Duocast gateway
address 5.6.7.8
use generic-host
parents kpn-gateway
contact_groups bla
}
# one of the hosts in datacenter.
define host {
host_name brick
alias host.example.com
address a.b.c.d
use generic-linux-host
parents duocast-gateway
contact_groups geborsteldstaal
}