Попытка импортировать ~ 400 млн документов в Elasticsearch из couchdb с помощью плагина couchdb river. Все начинается отлично со временем индексации около 5k / s, но через несколько часов возвращается и обнаруживает, что оно падает на пол около 20 / s. У нас есть система на массивном ящике x1.xlarge, и все, что она делает, - это Elasticsearch. У нас есть 20 сегментов без репликации, чтобы помочь с индексацией и отключить обновление индекса. Куча настроена на использование 65% памяти, и мы используем последнюю версию Java 7 от Oracle.
Какой параметр мне нужно настроить, чтобы облегчить первоначальный импорт данных? Я играл с таймаутами / размером bluk, но все еще не могу найти золотую середину.
Любая помощь была бы замечательной. Зухаиб