Мне нужно проанализировать данные, хранящиеся в нескольких базах данных. Каждый из них содержит несколько ТБ журналов и данных датчиков.
Если я использую Splunk или ElasticSearch / Kibana, я вижу 2 решения:
Пакетный импорт всего
Напишите несколько скриптов для импорта только нужных мне данных по запросу
Это не оптимально, потому что с 1. Я дублирую ТБ данных, а с 2. Мне нужна некоторая настраиваемая логика, которая не будет интегрирована с моим инструментом аналитики.
Мои вопросы:
Есть ли способ проводить аналитику на месте со Splunk или Kibana, т.е. пропустить этап импорта и просто прочитать все из существующих баз данных?
Или есть ли инструмент, который автоматически извлекал бы соответствующие данные и только соответствующие данные?
Чтобы иметь возможность быстро искать данные, я советую Elasticsearch В зависимости от того, какой должна быть логика, лежащая в основе соответствующих данных, вы можете использовать ElasticSearch Rivers http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/
Это позволяет эластичному поиску извлекать все (релевантные) данные. По моему опыту, объем хранимых вами данных будет уменьшен до нескольких ГБ в ElasticSearch.