Назад | Перейти на главную страницу

Какие инструменты мониторинга серверов можно масштабировать до 10–100 тысяч узлов?

Я встречал множество инструментов мониторинга распределенных систем, которые масштабируются до 1000 узлов, однако, похоже, нет ни одного, который демонстрирует или хотя бы заявляет о способности обрабатывать 10 000 или даже 100 000 узлов. Теоретически это должно быть возможно с иерархической кластерной сетевой архитектурой. Кто-нибудь встречал систему мониторинга, которая делает такое заявление, или технический документ, в котором обсуждается теоретическая реализация?

Предполагая, что это не выдумано http://users.nagios.org/directory/Yahoo,-Inc/details говорит, что Yahoo использует его на 100 000 машин, но уже развернуто 2000 экземпляров. И я предполагаю, что DNX подойдет для «управления» инстанциями.

Также только что нашел Мерлин который, похоже, может контролировать / проверять 153000 хостов за ~ 6 секунд, а не за 1 час

Раньше я работал с двумя инструментами.

  • Zabbix это бесплатное программное обеспечение с открытым исходным кодом. На их веб-сайте утверждается, что он был протестирован с 10 000 узлов.
  • Менеджер безопасности NetIQ (или Диспетчер приложений NetIQ) - закрытый и дорогой софт. Масштабирование очень легко, но для этого вам понадобится несколько серверов (в основном база данных и сборщики).

Количество хостов, которые вы можете отслеживать с помощью одного хоста, будет во многом зависеть от типа выполняемых вами проверок, продолжительности каждой проверки и возможности одновременной работы очереди.

я видел Копчение работать против огромного количества хостов. То же самое с nagios для простых настроек. У ребят из моей сестринской компании есть nagios, работающие на нескольких сотнях машин, выполняющих 10-20 проверок на каждый хост, еще несколько сотен маршрутизаторов, выполняющих серию проверок snmp, а затем какое-то другое «сетевое» оборудование, выполняющее комбинацию мониторинга snmp и пользовательских сценариев. Всего на машине более 10к проверок. Проблемы возникают только тогда, когда проверки snmp начинают отставать.

Также взгляните на Зенос. Есть несколько версий, и она действительно масштабируется.