Назад | Перейти на главную страницу

Инструменты сетевого мониторинга с функциями API

Мы используем пакет Advanced Hostmonitor от ks-soft для мониторинга около 2000 объектов в нашей сети. Мы думаем, что это здорово, человек, который его поддерживает, великолепен, продукт быстрый, стабильный и зрелый, но я чувствую, что по мере роста нашей компании появляются некоторые трения в области интеграции с нашими административными системами бэк-офиса.

Одна из вещей, которые мы хотели бы сделать, - это иметь возможность добавлять новые тесты к любому инструменту мониторинга, который мы используем через API. Например, когда заказы на серверы поступают из нашего розничного интерфейса, сервер создается автоматически, и в рамках автоматизированного процесса сборки мы хотели бы автоматически добавлять новые тесты в системы мониторинга сети.

Hostmonitor имеет некоторую поддержку для этого с помощью функции под названием HM Script, но мы начинаем сталкиваться с некоторыми ускорениями -

мы не можем добавлять новых операторов / пользователей
мы не можем определить новые «Профили действий» - это действия, которые нужно предпринять, когда тест прошел хорошо или плохо.

Что нам нравится в hostmonitor являются Профили действий. Например, если окно Windows IIS выходит из строя, наш профиль действия для плохого теста делает что-то вроде:

Проверить хост еще раз (один раз)
Подождите еще 30 секунд, затем повторите попытку
Попробуйте перезапустить пул приложений на удаленном компьютере (до двух раз)
Отправить электронное письмо оператору по поводу сбоя перезапуска
Попробуйте перезапустить IIS на удаленном компьютере (до четырех раз)
Страница дежурного администратора (до 5 раз - останавливается после предупреждения дежурного админа ACKS)
Резервное копирование страницы дежурного администратора (5 раз - останавливается после оповещения дежурного админа ACKS)

Я начинаю искать другие инструменты для мониторинга сети и ищу:

комплексный API, позволяющий добавлять / удалять / контролировать тесты / тестировать «профили действий» / операторов (не только плагины, нам нужны интерфейсы управления и администрирования)
возможность иметь довольно подробные профили действий / эскалации (и определять их через API)

Я посмотрел на Nagios и Icinga, но, похоже, не могу понять из их документации, можем ли мы иметь эти функции или нет, или, если бы мы могли, сколько работы потребуется для реализации / настройки.

Может ли кто-нибудь дать совет, руководство или опыт?

В зависимости от вашей среды вам может потребоваться решение, которое даже не использует зонды, а вместо этого просто анализирует трафик, а затем настраивает оповещения на основе таких вещей, как если вы видите ошибки уровня 500 или резкое падение трафика в течение длительного периода времени. Например, посмотрите, что предлагает ExtraHop: http://www.extrahop.com/

У Opsview есть API: http://docs.opsview.com/doku.php?id=opsview3.0:api

Если вы ищете внешний мониторинг, возможно, вам стоит взглянуть на WatchMouse. Их API предоставляет функции, о которых вы говорите (если я правильно понимаю): apidoc.watchmouse.com

Ура, Марк

Icinga отлично справляется со своей задачей (я предпочитаю ее Nagios, потому что у нее есть единый API, который можно использовать для получения данных, и она на 100% совместима с плагинами Nagios).

Есть видео о Nagios VS Icinga, которое очень хорошо описывает это: YouTube (Это от Icinga, поэтому подходите с осторожностью)

Вы можете использовать Icinga для отправки кому-нибудь электронной почты / sms и даже для запуска сценария (и, таким образом, перезапуска службы, перезагрузки, ...) Пример: Ссылка на сайт (Это ссылка на nagios, но это то же самое).
Единственное, в чем я не уверен, так это выполнение команд в хронологическом порядке.

Чтобы упростить настройку, мы используем NConf. Он предлагает API для хостов, служб, ... (не для управления пользователями).