Влияет ли изменение коэффициента репликации HDFS с 3 на производительность сопоставителя?

У меня есть кластер HDFS / Hadoop, и я собираюсь его настроить.

Интересно, изменит ли коэффициент репликации HDFS по умолчанию (по умолчанию: 3) на что-то большее, улучшит производительность картографа при очевидном увеличении используемого дискового хранилища?

Я считаю, что если данные уже реплицируются на большее количество узлов, задания сопоставления могут выполняться на нескольких узлах параллельно без потоковой передачи / копирования данных?

У кого-нибудь есть мнения?

hadoop hdfs

Концептуально ваши выводы верны: с блоками, доступными в большем количестве мест, планировщик имеет больше свободы для распределения локальных задач узла (на той же машине, что и блок ввода), и меньше данных будет передаваться в потоке.

Однако, прежде чем сделать этот шаг, уверены ли вы, что потоковая передача блоков является источником замедления? Если только небольшое подмножество узлов HDFS не размещает блоки, необходимые для вашей рабочей нагрузки, увеличение коэффициента репликации вам не поможет. Другими словами, если у вас уже есть хорошо сбалансированный кластер с точки зрения распределения соответствующих блоков, размещение этих блоков на дополнительных узлах не сильно ускорит выполнение, потому что потоковая передача не является вашим узким местом.

Одна быстрая проверка - это статистика локального узла и локальной стойки в веб-интерфейсе JobTracker для данного задания.

Если потоковая передача действительно является замедлением, то узким местом является дисковый ввод-вывод или сетевой ввод-вывод? Некоторые альтернативы увеличению репликации могут заключаться в увеличении (4), а затем снижении (3) блочной репликации, что должно обеспечить более равномерное распределение по кластеру. ИЛИ выгрузите и перезагрузите файлы.

Опишите подробнее, почему вы считаете это узким местом, и могут быть другие подходящие решения.