Назад | Перейти на главную страницу

Инструменты сетевого мониторинга с функциями API

Мы используем пакет Advanced Hostmonitor от ks-soft для мониторинга около 2000 объектов в нашей сети. Мы думаем, что это здорово, человек, который его поддерживает, великолепен, продукт быстрый, стабильный и зрелый, но я чувствую, что по мере роста нашей компании появляются некоторые трения в области интеграции с нашими административными системами бэк-офиса.

Одна из вещей, которые мы хотели бы сделать, - это иметь возможность добавлять новые тесты к любому инструменту мониторинга, который мы используем через API. Например, когда заказы на серверы поступают из нашего розничного интерфейса, сервер создается автоматически, и в рамках автоматизированного процесса сборки мы хотели бы автоматически добавлять новые тесты в системы мониторинга сети.

Hostmonitor имеет некоторую поддержку для этого с помощью функции под названием HM Script, но мы начинаем сталкиваться с некоторыми ускорениями -

  1. мы не можем добавлять новых операторов / пользователей
  2. мы не можем определить новые «Профили действий» - это действия, которые нужно предпринять, когда тест прошел хорошо или плохо.

Что нам нравится в hostmonitor являются Профили действий. Например, если окно Windows IIS выходит из строя, наш профиль действия для плохого теста делает что-то вроде:

Я начинаю искать другие инструменты для мониторинга сети и ищу:

  1. комплексный API, позволяющий добавлять / удалять / контролировать тесты / тестировать «профили действий» / операторов (не только плагины, нам нужны интерфейсы управления и администрирования)
  2. возможность иметь довольно подробные профили действий / эскалации (и определять их через API)

Я посмотрел на Nagios и Icinga, но, похоже, не могу понять из их документации, можем ли мы иметь эти функции или нет, или, если бы мы могли, сколько работы потребуется для реализации / настройки.

Может ли кто-нибудь дать совет, руководство или опыт?

В зависимости от вашей среды вам может потребоваться решение, которое даже не использует зонды, а вместо этого просто анализирует трафик, а затем настраивает оповещения на основе таких вещей, как если вы видите ошибки уровня 500 или резкое падение трафика в течение длительного периода времени. Например, посмотрите, что предлагает ExtraHop: http://www.extrahop.com/

Если вы ищете внешний мониторинг, возможно, вам стоит взглянуть на WatchMouse. Их API предоставляет функции, о которых вы говорите (если я правильно понимаю): apidoc.watchmouse.com

Ура, Марк

Icinga отлично справляется со своей задачей (я предпочитаю ее Nagios, потому что у нее есть единый API, который можно использовать для получения данных, и она на 100% совместима с плагинами Nagios).

Есть видео о Nagios VS Icinga, которое очень хорошо описывает это: YouTube (Это от Icinga, поэтому подходите с осторожностью)

Вы можете использовать Icinga для отправки кому-нибудь электронной почты / sms и даже для запуска сценария (и, таким образом, перезапуска службы, перезагрузки, ...) Пример: Ссылка на сайт (Это ссылка на nagios, но это то же самое).
Единственное, в чем я не уверен, так это выполнение команд в хронологическом порядке.

Чтобы упростить настройку, мы используем NConf. Он предлагает API для хостов, служб, ... (не для управления пользователями).