Назад | Перейти на главную страницу

Оптимальная конфигурация RAID для хранилища экземпляров EC2, используемого для HDFS

Я пытаюсь определить, есть ли какое-либо практическое преимущество в настройке RAID-массива в хранилище экземпляров 3x экземпляров d2.2xlarge, используемых для HDFS. Изначально я планировал просто смонтировать каждое хранилище и добавить его в качестве дополнительного каталога данных для Hadoop. Но, похоже, может быть некоторый дополнительный прирост производительности с конфигурацией RAID 0 или 10. Поскольку надежность обрабатывается самой HDFS, нет необходимости рассматривать RAID 1 или 5 с этой точки зрения (например, если одно или все хранилища вышли из строя на экземпляре, надежность обеспечивается репликацией с других узлов данных). RAID 6 кажется непрактичным из-за известных проблем с длительным временем восстановления и сниженной пропускной способностью из-за записи с 2-кратным контролем четности (опять же, лучше всего позволить HDFS обеспечивать надежность). Остается RAID 0 и 10, которые теоретически имеют лучший дисковый ввод-вывод, чем стандартный жесткий диск. Будет ли HDFS иметь заметный прирост производительности на массиве RAID для хранилища экземпляров?