Я встречал множество инструментов мониторинга распределенных систем, которые масштабируются до 1000 узлов, однако, похоже, нет ни одного, который демонстрирует или хотя бы заявляет о способности обрабатывать 10 000 или даже 100 000 узлов. Теоретически это должно быть возможно с иерархической кластерной сетевой архитектурой. Кто-нибудь встречал систему мониторинга, которая делает такое заявление, или технический документ, в котором обсуждается теоретическая реализация?
Предполагая, что это не выдумано http://users.nagios.org/directory/Yahoo,-Inc/details говорит, что Yahoo использует его на 100 000 машин, но уже развернуто 2000 экземпляров. И я предполагаю, что DNX подойдет для «управления» инстанциями.
Также только что нашел Мерлин который, похоже, может контролировать / проверять 153000 хостов за ~ 6 секунд, а не за 1 час
Раньше я работал с двумя инструментами.
Количество хостов, которые вы можете отслеживать с помощью одного хоста, будет во многом зависеть от типа выполняемых вами проверок, продолжительности каждой проверки и возможности одновременной работы очереди.
я видел Копчение работать против огромного количества хостов. То же самое с nagios для простых настроек. У ребят из моей сестринской компании есть nagios, работающие на нескольких сотнях машин, выполняющих 10-20 проверок на каждый хост, еще несколько сотен маршрутизаторов, выполняющих серию проверок snmp, а затем какое-то другое «сетевое» оборудование, выполняющее комбинацию мониторинга snmp и пользовательских сценариев. Всего на машине более 10к проверок. Проблемы возникают только тогда, когда проверки snmp начинают отставать.
Также взгляните на Зенос. Есть несколько версий, и она действительно масштабируется.