Назад | Перейти на главную страницу

Насколько хорошо elasticsearch сжимает данные?

Я хочу определить серверы, необходимые для проверки концепции elasticsearch.

В конечном итоге мой вопрос таков:

Учитывая 1 ГБ json-текста, проиндексированного elasticsearch, сколько я могу ожидать, что на диске будет занято elasticsearch?

Очевидно, есть много переменных, но я собираюсь на порядки. 100 МБ? 100 ГБ?

Я понимаю, что elasticsearch выполняет сжатие ( http://www.elasticsearch.org/guide/reference/index-modules/store/ ), но я не знаю, какую площадь занимают индексы и другие структуры.

Анекдотические ответы приемлемы, но, пожалуйста, также дайте мне знать, какую версию вы используете.

Ответ: это зависит от обстоятельств.

Сообщение в блоге Адриен Гранд, работающий над Elasticsearch провел некоторый сравнительный анализ с точки зрения Lucene. Похоже, он улучшился примерно в 2 раза.

Он также упоминает LUCENE-4226, где была проделана часть этой основной работы по сжатию. В нем перечислены несколько тестов, в которых сравниваются различные протестированные алгоритмы сжатия.

Также, исходя из этого Объявление о выпуске Elasticsearch 0.19.5, похоже, что для сжатия на уровне хранилища по умолчанию используется LZF, а Snappy появится в будущем. Дальнейший осмотр показал, что экспериментальная поддержка Snappy появилась в 0.19.9.