Я хочу определить серверы, необходимые для проверки концепции elasticsearch.
В конечном итоге мой вопрос таков:
Учитывая 1 ГБ json-текста, проиндексированного elasticsearch, сколько я могу ожидать, что на диске будет занято elasticsearch?
Очевидно, есть много переменных, но я собираюсь на порядки. 100 МБ? 100 ГБ?
Я понимаю, что elasticsearch выполняет сжатие ( http://www.elasticsearch.org/guide/reference/index-modules/store/ ), но я не знаю, какую площадь занимают индексы и другие структуры.
Анекдотические ответы приемлемы, но, пожалуйста, также дайте мне знать, какую версию вы используете.
Ответ: это зависит от обстоятельств.
Сообщение в блоге Адриен Гранд, работающий над Elasticsearch провел некоторый сравнительный анализ с точки зрения Lucene. Похоже, он улучшился примерно в 2 раза.
Он также упоминает LUCENE-4226, где была проделана часть этой основной работы по сжатию. В нем перечислены несколько тестов, в которых сравниваются различные протестированные алгоритмы сжатия.
Также, исходя из этого Объявление о выпуске Elasticsearch 0.19.5, похоже, что для сжатия на уровне хранилища по умолчанию используется LZF, а Snappy появится в будущем. Дальнейший осмотр показал, что экспериментальная поддержка Snappy появилась в 0.19.9.