Назад | Перейти на главную страницу

Территориально распределенные, отказоустойчивые и «интеллектуальные» системы мониторинга приложений / хостов

Приветствую,

Я хотел бы узнать мнение коллектива о распределенных системах мониторинга, что вы используете и что вам известно, что может помешать мне?

Требования довольно сложные;

Я готов рассмотреть как коммерческие варианты, так и варианты с открытым исходным кодом, хотя я бы предпочел избегать программного обеспечения стоимостью в миллионы фунтов :-) Я также готов согласиться с тем, что, возможно, нет ничего, что помечает все эти поля, но хотел спросить коллектив об этом.

Размышляя о мониторинге узлов и их размещении, имейте в виду, что большинство из них будут выделенными серверами в случайных сетях интернет-провайдеров и, следовательно, в значительной степени вне моей сферы контроля. Решения, основанные на каналах BGP и других сложных сетевых уловках, скорее всего, не подойдут.

Я также должен отметить, что я либо оценивал, развертывал, либо активно использовал / настраивал большинство вариантов с открытым исходным кодом в прошлом, включая Nagios, Zabbix и других - они действительно неплохие инструменты, но в целом они не подходят " распределенный аспект, особенно в отношении логики, обсуждаемой в моем вопросе, и «интеллектуальных» предупреждений.

Рад прояснить все необходимые моменты. Ура, ребята и девчонки :-)

не ответ на самом деле, но несколько указателей:

  • определенно взгляните на презентацию о nagios @ goldman sachs. они столкнулись с проблемами, о которых вы упомянули - избыточность, масштабируемость: тысячи хостов, а также автоматическое создание конфигурации.

  • У меня была избыточная установка nagios, но в гораздо меньшем масштабе - 80 серверов, всего ~ 1k сервисов. один выделенный главный сервер, один подчиненный сервер, получающий конфигурацию от главного через равные промежутки времени несколько раз в день. оба сервера покрывали мониторинг одних и тех же машин, у них была перекрестная проверка работоспособности между собой. Я использовал nagios в основном как платформу для вызова специальных проверок продукта [куча заданий cron, выполняющих сценарии, выполняющие «искусственный контроль потока», результаты записывались в sql, плагины nrpe проверяли успешное / неудачное выполнение тех, которые выполнялись за последние x минут]. все работало очень красиво.

  • ваша логика кворума звучит хорошо - немного похоже на мои «искусственные потоки» - в основном продолжайте, ipmplement your self; -]. и пусть nrpe просто проверит какой-нибудь флаг [или sql db с timestamp-status], как дела.

  • вы, вероятно, захотите построить какую-то иерархию для масштабирования - у вас будут некоторые узлы, которые собирают обзор других узлов, посмотрите на презентацию с первой точки. разветвление nagios по умолчанию для каждой отдельной проверки является излишним при большем количестве отслеживаемых сервисов.

чтобы ответить на несколько вопросов:

  • в моем случае отслеживаемая среда была типичной установкой «главный-подчиненный» [основной сервер sql или сервер приложений + горячий резерв], без «мастер-мастер».
  • Моя настройка включала «фактор фильтрации человека» - группу решателей, которая была «резервной копией» для смс-уведомлений. уже была оплачиваемая группа техников, у которых по другим причинам были смены 24 часа в сутки 5 дней в неделю, они получили «проверку почты nagios» в качестве дополнительной задачи, не создавая для них слишком большой нагрузки. и они отвечают за то, чтобы db-admins / it-ops / app-admins действительно встали и исправили проблемы; -]
  • я слышал много хорошего о zabbix - для оповещения и построения трендов, но никогда не использовал. для меня Мунин делает свое дело, я взломал простой плагин nagios, проверяющий, есть ли «красный» [критический] цвет в списке серверов munin - просто дополнительная проверка. вы также можете читать значения из rrd-файлов munin, чтобы уменьшить количество запросов, которые вы отправляете на отслеживаемую машину.

То, о чем вы просите, очень похоже на то, что Shinken сделал для Nagios.

Shinken - это переработанная версия Nagios.

  • Современный язык (Python)
  • Современная среда распределенного программирования (Pyro)
  • Мониторинг Realms (мультитенантность), HA, запасные части
  • Livestatus API
  • Совместимость с плагином Nagios
  • Собственное исполнение NRPE
  • Бизнес-критичность объектов
  • Бизнес-правила могут применяться к состоянию объектов (управление доступностью кластера или пула)
  • Для построения графиков можно использовать PNP4nagios на основе Graphite или RRDtool.
  • Стабильность и развертывание в больших средах
  • В крупных развертываниях можно рассмотреть возможность объединения его со Splunk для отчетности или изучения Graphite, где RRDtool не подходит.

Это должно быть пищей для размышлений.

Ура