Диск Hadoop вышел из строя, что делать?

Я хотел бы знать о ваших стратегиях относительно того, что делать в случае отказа одного из дисков сервера Hadoop.

Допустим, у меня несколько (> 15) серверов Hadoop и 1 namenode, и один из 6 дисков на ведомых устройствах перестает работать, диски подключены через SAS. Меня интересует не получение данных с этого диска, а общие стратегии поддержания работы кластера.

Чем ты занимаешься?

Вы упомянули, что эта система была унаследована (возможно, не обновлена) и что нагрузка возрастает, указывая на возможный бесконечный цикл. Описывает ли этот отчет об ошибке вашу ситуацию?

https://issues.apache.org/jira/browse/HDFS-466

Если это так, то в последней версии HDFS 0.21.0 (только что выпущенной на прошлой неделе) сообщается, что это исправлено:

http://hadoop.apache.org/hdfs/docs/current/releasenotes.html

Отказ от ответственности: к моему разочарованию, у меня еще не было необходимости использовать Hadoop / HDFS :)

Мы развернули хадуп. Вы можете указать номера репликации для файлов. Сколько раз реплицируется файл. У Hadoop есть единственная точка отказа на namenode. Если вас беспокоит, что диски выходят из строя, увеличьте репликацию до 3 или более.

Затем, если диск выходит из строя, это очень просто. Выкинь и переформатируй. Hadoop настроится автоматически. Фактически, как только диск выходит из строя, он начинает перебалансировать файлы для поддержания номеров репликации.

Я не уверен, почему у вас такая большая награда. Вы сказали, что не хотите получать данные. У Hadoop есть только одна точка отказа на узле имени. Все остальные узлы одноразовые.