Назад | Перейти на главную страницу

Какие преимущества ZFS перед EXT4 для обработки потока данных поверх HDFS?

Я работаю над проектом обработки потока данных, в котором я буду использовать Apache Flink и Apache Spark, и я хочу использовать HDFS для хранения. Разработка и тестирование будут проводиться на кластере с одним узлом и несколькими физическими дисками.

Я уже проверил этот вопрос и этот технический документ, но я не уверен, насколько это применимо к моему сценарию, и все еще не понимаю, использовать ли диски в качестве отдельных томов EXT4 с HDFS или создавать один пул с ZFS.

Я хочу знать, как эти 2 варианта сравниваются с точки зрения производительности и защиты от потери данных, и каков будет рекомендуемый подход.