Назад | Перейти на главную страницу

Распределенная, параллельная, отказоустойчивая файловая система с высокой пропускной способностью

Я ищу DFS (распределенную файловую систему), которая является отказоустойчивой и простой в обслуживании. У меня будет тонны (более 100 миллионов) небольших файлов (от 1 до 500 тысяч). Файлы будут расположены в некоторых каталогах, что создаст логическую структуру данных.

У меня будет средняя нагрузка чтения 100 МБ / с и нагрузка записи 100 МБ / с.

Я хотел бы получить информацию о том, какая файловая система лучше всего подходит для данных требований.

Есть предположения?

Ceph довольно интересный, с некоторыми интересными функциями. Что особенно здорово, так это то, что функция репликации (которая решает, в какие данные OSD отправляются) действительно гибкая и может быть настроена в соответствии с вашими потребностями в надежности.

Общая идея состоит в том, что существует 3 типа демонов:

  • OSD, в которых хранятся объекты (в основном необработанные байтовые потоки)
  • MDS, серверы метаданных, которые обеспечивают семантику файловой системы
    • MDS также выполняют адаптивную балансировку нагрузки - если некоторые метаданные действительно сильно доступны, они распространятся на большее количество MDS, чтобы разделить нагрузку.
  • Мониторы, которые поддерживают состояние и конфигурацию кластера

Клиент уже некоторое время находится в апстриме ядра Linux, и все серверные компоненты работают полностью в пользовательском пространстве.

Что касается производительности, в оригинальной докторской диссертации по Ceph отмечалось, что при 24 OSD узким местом была пропускная способность сетевого коммутатора, и что производительность линейно масштабировалась с количеством узлов. (см. раздел публикаций на сайте ceph). Это было пять лет назад, и с тех пор было много тюнинга.

Что касается надежности, то проект был запущен основателем Dreamhost и сейчас внедряется в их инфраструктуру.

GlusterFS, Lustre и т.д ... см. http://en.wikipedia.org/wiki/List_of_file_systems для списка.

Также зависит от того, что вы пытаетесь сделать. Рабочие станции в бизнесе, получающие к нему доступ? Интернет-доступ? ...?