Назад | Перейти на главную страницу

Решение для мониторинга, которое не дублирует исходные данные?

Мне нужно проанализировать данные, хранящиеся в нескольких базах данных. Каждый из них содержит несколько ТБ журналов и данных датчиков.

Если я использую Splunk или ElasticSearch / Kibana, я вижу 2 решения:

  1. Пакетный импорт всего

  2. Напишите несколько скриптов для импорта только нужных мне данных по запросу

Это не оптимально, потому что с 1. Я дублирую ТБ данных, а с 2. Мне нужна некоторая настраиваемая логика, которая не будет интегрирована с моим инструментом аналитики.

Мои вопросы:

Чтобы иметь возможность быстро искать данные, я советую Elasticsearch В зависимости от того, какой должна быть логика, лежащая в основе соответствующих данных, вы можете использовать ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/

Это позволяет эластичному поиску извлекать все (релевантные) данные. По моему опыту, объем хранимых вами данных будет уменьшен до нескольких ГБ в ElasticSearch.