Я работаю над проектом обработки потока данных, в котором я буду использовать Apache Flink и Apache Spark, и я хочу использовать HDFS для хранения. Разработка и тестирование будут проводиться на кластере с одним узлом и несколькими физическими дисками.
Я уже проверил этот вопрос и этот технический документ, но я не уверен, насколько это применимо к моему сценарию, и все еще не понимаю, использовать ли диски в качестве отдельных томов EXT4 с HDFS или создавать один пул с ZFS.
Я хочу знать, как эти 2 варианта сравниваются с точки зрения производительности и защиты от потери данных, и каков будет рекомендуемый подход.