Hortonworks говорит это: «Чаще всего производительность кластера Hadoop не будет ограничиваться скоростью диска - ограничения ввода-вывода и ОЗУ будут более важными». *
Как скорость диска не связана с ограничениями ввода-вывода?
Комментарий технически правильный, но в нем есть нюансы. Вы должны понимать, что делают ваши задания MapReduce.
Хотя скорость вращения диска важна, возможно, она менее важна, чем сеть скорость, как при выключении системы, так и при выключенном выключателе, особенно в случае, когда вы генерируете большие объемы входных данных на этапе сокращения, поскольку редукторы не могут учитывать локальность данных.
Чаще всего вы встретите кластеры, использующие диски 7200 об / мин, настроенные в JBOD (потому что это общая рекомендация сообщества Hadoop балансировать стоимость, производительность и надежность). В большинстве конфигураций вы наверное не собираюсь найти более 1-2 читателей / писателей, идущих к каждому шпинделю (подумайте: 1-2 задачи на шпиндель). Производительность не будет значительно улучшена из-за улучшения задержки вращения (хотя я намеренно обошел проблему SSD здесь).
С современными приводами 7200 об / мин вы получите скорость 100-200 МБ / с ... или эквивалент 1-2 Гбит / с в секунду. Мои кластеры рассчитаны примерно на 25 Гбит / с диск Ввод / вывод ... но для того, чтобы использовать эту производительность во время фазы перемешивания и уменьшения, мне нужно иметь по крайней мере такая высокая производительность доступна в сети только для того, чтобы получить данные из системы.
Это дает мне (почти) переподписку 1: 1, если мне нужно только общаться с другими узлами при переключении. Если мой кластер соединяет несколько коммутаторов, я теперь должен убедиться, что у меня достаточно мощности для обработки значительных объемов трафика с востока на запад, который может возникнуть во время перемешивания, поскольку данные перемещаются от картографов в редукторы.
Весь дисковый ввод-вывод в мире бесполезен, если вы не можете получить данные там, где они нужны в кластере. Локальность данных и осведомленность о стойке помогают, но только на определенных этапах всего процесса MR.
Как скорость диска не связана с ограничениями ввода-вывода?
Я полностью с вами в этом вопросе, они связаны, особенно для Hadoop - я только что закончил проектировать новую пару кластеров, и скорость диска определенно была важным аспектом этого.
Возможные интерпретации: