У меня есть кластер hadoop с ~ 7 машинами, и некоторые из них продолжают выходить из строя. Иногда процессы hadoop datanode / jobtracker только умирают (машина все еще работает), а в других случаях выключается вся машина.
Я действительно не отлаживал подобную ситуацию, поэтому мне интересно, с чего мне начать - например, журналы, которые я должен изучить. файл журнала в /logs/
каталог - файлы вроде hadoop-dev-datanode-X.log
вроде нет ничего полезного. также, если машина Linux выходит из строя, где мне искать сообщения об ошибках?