Я хотел бы знать о ваших стратегиях относительно того, что делать в случае отказа одного из дисков сервера Hadoop.
Допустим, у меня несколько (> 15) серверов Hadoop и 1 namenode, и один из 6 дисков на ведомых устройствах перестает работать, диски подключены через SAS. Меня интересует не получение данных с этого диска, а общие стратегии поддержания работы кластера.
Чем ты занимаешься?
Вы упомянули, что эта система была унаследована (возможно, не обновлена) и что нагрузка возрастает, указывая на возможный бесконечный цикл. Описывает ли этот отчет об ошибке вашу ситуацию?
https://issues.apache.org/jira/browse/HDFS-466
Если это так, то в последней версии HDFS 0.21.0 (только что выпущенной на прошлой неделе) сообщается, что это исправлено:
http://hadoop.apache.org/hdfs/docs/current/releasenotes.html
Отказ от ответственности: к моему разочарованию, у меня еще не было необходимости использовать Hadoop / HDFS :)
Мы развернули хадуп. Вы можете указать номера репликации для файлов. Сколько раз реплицируется файл. У Hadoop есть единственная точка отказа на namenode. Если вас беспокоит, что диски выходят из строя, увеличьте репликацию до 3 или более.
Затем, если диск выходит из строя, это очень просто. Выкинь и переформатируй. Hadoop настроится автоматически. Фактически, как только диск выходит из строя, он начинает перебалансировать файлы для поддержания номеров репликации.
Я не уверен, почему у вас такая большая награда. Вы сказали, что не хотите получать данные. У Hadoop есть только одна точка отказа на узле имени. Все остальные узлы одноразовые.