Назад | Перейти на главную страницу

Ограничения ввода-вывода и ОЗУ важны для производительности Hadoop. Но связана ли скорость диска с вводом-выводом?

Hortonworks говорит это: «Чаще всего производительность кластера Hadoop не будет ограничиваться скоростью диска - ограничения ввода-вывода и ОЗУ будут более важными». *

Как скорость диска не связана с ограничениями ввода-вывода?

Комментарий технически правильный, но в нем есть нюансы. Вы должны понимать, что делают ваши задания MapReduce.

Хотя скорость вращения диска важна, возможно, она менее важна, чем сеть скорость, как при выключении системы, так и при выключенном выключателе, особенно в случае, когда вы генерируете большие объемы входных данных на этапе сокращения, поскольку редукторы не могут учитывать локальность данных.

Чаще всего вы встретите кластеры, использующие диски 7200 об / мин, настроенные в JBOD (потому что это общая рекомендация сообщества Hadoop балансировать стоимость, производительность и надежность). В большинстве конфигураций вы наверное не собираюсь найти более 1-2 читателей / писателей, идущих к каждому шпинделю (подумайте: 1-2 задачи на шпиндель). Производительность не будет значительно улучшена из-за улучшения задержки вращения (хотя я намеренно обошел проблему SSD здесь).

С современными приводами 7200 об / мин вы получите скорость 100-200 МБ / с ... или эквивалент 1-2 Гбит / с в секунду. Мои кластеры рассчитаны примерно на 25 Гбит / с диск Ввод / вывод ... но для того, чтобы использовать эту производительность во время фазы перемешивания и уменьшения, мне нужно иметь по крайней мере такая высокая производительность доступна в сети только для того, чтобы получить данные из системы.

Это дает мне (почти) переподписку 1: 1, если мне нужно только общаться с другими узлами при переключении. Если мой кластер соединяет несколько коммутаторов, я теперь должен убедиться, что у меня достаточно мощности для обработки значительных объемов трафика с востока на запад, который может возникнуть во время перемешивания, поскольку данные перемещаются от картографов в редукторы.

Весь дисковый ввод-вывод в мире бесполезен, если вы не можете получить данные там, где они нужны в кластере. Локальность данных и осведомленность о стойке помогают, но только на определенных этапах всего процесса MR.

Как скорость диска не связана с ограничениями ввода-вывода?

Я полностью с вами в этом вопросе, они связаны, особенно для Hadoop - я только что закончил проектировать новую пару кластеров, и скорость диска определенно была важным аспектом этого.

Возможные интерпретации:

  • не весь ввод-вывод - это дисковый ввод-вывод, сетевой ввод-вывод часто является проблемой в кластерных средах
  • количество и конфигурации дисков часто оказывают большее влияние на общий ввод-вывод диска, чем скорость самого диска (например, 2 более медленных диска в конфигурации RAID0 могут превзойти один очень быстрый диск при той же общей цене)
  • Ограничения ОЗУ всегда будут превышать скорость диска - как только система начнет подкачку, производительность упадет, независимо от того, насколько быстро ваш диск (правда, не имеет прямого отношения к вводу-выводу)