У меня есть 2 сервера ES, которые питаются 1 сервером logstash и просматривают журналы в Kibana. Это POC для решения любых проблем перед запуском в производство. Система работает около 1 месяца, и каждые несколько дней Kibana перестает показывать логи в случайное время посреди ночи. Прошлой ночью последняя запись в журнале, которую я получил в Кибане, была около 18:30. Когда я проверил серверы ES, он показал, что главный запущен, а вторичный не запущен (из / sbin / service elasticsearch status), но я смог выполнить завиток на локальном хосте, и он вернул информацию. Так что не уверен, что с этим делать. В любом случае, когда я делаю статус на главном узле, я получаю следующее:
curl -XGET 'http://localhost:9200/_cluster/health?pretty=true'
{
"cluster_name" : "gis-elasticsearch",
"status" : "red",
"timed_out" : false,
"number_of_nodes" : 6,
"number_of_data_nodes" : 2,
"active_primary_shards" : 186,
"active_shards" : 194,
"relocating_shards" : 0,
"initializing_shards" : 7,
"unassigned_shards" : 249
}
Когда я просматриваю индексы через "ls ... nodes / 0 / indeces /", он показывает, что все индексы были изменены сегодня по какой-то причине, и есть новый файл на сегодняшний день. Так что я думаю, что начинаю догонять после Я перезапустил оба сервера, но не понимаю, почему это вообще не удалось. Когда я смотрю журналы на главном сервере, я вижу только 4 ошибки предупреждения в 18:57, а затем 2-е, покидающие кластер. Я не вижу никаких журналов на вторичном (пистолете) о том, почему он перестал работать или что на самом деле произошло.
[2014-03-06 18:57:04,121][WARN ][transport ] [ElasticSearch Server1] Transport response handler not found of id [64147630]
[2014-03-06 18:57:04,124][WARN ][transport ] [ElasticSearch Server1] Transport response handler not found of id [64147717]
[2014-03-06 18:57:04,124][WARN ][transport ] [ElasticSearch Server1] Transport response handler not found of id [64147718]
[2014-03-06 18:57:04,124][WARN ][transport ] [ElasticSearch Server1] Transport response handler not found of id [64147721]
[2014-03-06 19: 56: 08,467] [INFO] [cluster.service] [ElasticSearch Server1] удалил {[Pistol] [sIAMHNj6TMCmrMJGW7u97A] [inet [/10.1.1.10:9301]] {client = true, data = false},}, причина: zen-disco-node_failed ([Pistol] [sIAMHNj6TMCmrMJGW7u97A] [inet [/10.13.3.46:9301]] {client = true, data = false}), причина не удалось проверить связь, попробовали [3] раз, каждый с максимальным таймаутом [30 с] [2014-03-06 19: 56: 12,304] [INFO] [cluster.service] [ElasticSearch Server1] добавил {[Pistol] [sIAMHNj6TMCmrMJGW7u97A] [inet [/10.1.1.10:9301 ]] {client = true, data = false},}, причина: zen-disco-receive (присоединиться с узла [[Pistol] [sIAMHNj6TMCmrMJGW7u97A] [inet [/10.13.3.46:9301]]] {client = true, data = ложный}])
Есть идеи по поводу дополнительных журналов или устранения неполадок, которые я могу включить, чтобы этого не происходило в будущем? Поскольку осколки не обрабатываются, прямо сейчас я просто вижу много отладочных сообщений о том, что не удалось выполнить синтаксический анализ. Я предполагаю, что это будет исправлено, как только мы догоним.
[2014-03-07 10: 06: 52,235] [DEBUG] [action.search.type] [ElasticSearch Server1] Все сегменты не прошли этап: [запрос] [2014-03-07 10: 06: 52,223] [DEBUG] [action.search.type] [ElasticSearch Server1] [windows-2014.03.07] [3], узел [W6aEFbimR5G712ddG_G5yQ], [P], s [STARTED]: не удалось выполнить [org.elasticsearch.action.search.SearchRequest @ 74ecbbc6] lastShard [true] org.elasticsearch.search.SearchParseException: [windows-2014.03.07] [3]: от [-1], размер [-1]: Ошибка синтаксического анализа [Не удалось выполнить синтаксический анализ источника [{"аспекты": {"0": {"date_histogram": {"field": "@ timestamp", "interval": "10m"}, "global": true, "facet_filter": {"fquery": {"query": { "filter": {"query": {"query_string": {"query": "(ASA AND Deny)"}}, "filter": {"bool": {"must": [{"range": { "@timestamp": {"from": 1394118412373, "to": "now"}}}]}}}}}}}}, "size": 0}]]
Обычными подозреваемыми на ЭС с Кибаной являются:
Также "обычная" установка для ES 3 сервера чтобы обеспечить лучшую избыточность, когда один сервер не работает. Но ЫММВ.
Вы можете попробовать новый сборщик мусора G1 тоже, который (в моем случае) ведет себя намного лучше, чем CMS в моем Kibana ES.
Проблема с продолжительностью сборки мусора обычно возникает, когда вы смотрите в другое место, и обычно приводит к потере данных, потому что ES перестает отвечать.
Удачи с этим :)