Хранение научных данных: много маленьких файлов, один том или несколько?

У меня есть примерные данные объемом около 8 ТБ со следующими характеристиками:

каждый образец: 5-15 ГБ в одной папке, содержащей ~ 20 тыс. файлов и ~ 10 тыс. вложенных папок (2000 верхнего уровня, 5 подуровней, содержащих файлы данных размером ~ 0,5-2 МБ и небольшие файлы настроек).

Я устанавливаю сервер Dell T710 под управлением Windows Server 2008 R2 с эффективным пространством 19 ТБ (RAID5) для консолидации данных. Ранее я наблюдал значительное замедление при открытии / просмотре / копировании на компьютере с примерно 1,5 ТБ данных этого типа на выделенном внутреннем диске (NTFS).

Каждый образец будет скопирован на этот сервер для хранения, но анализ будет происходить в другом месте (данные будут скопированы с сервера). Так что никаких ежедневных изменений в существующих данных, только новые данные.

Какая конфигурация диска лучше всего подходит для обработки данных такого типа? Диск является GPT и в настоящее время имеет EFI, MSR, системный раздел 70 ГБ и пустой раздел данных 19 ТБ.

один большой том 19 ТБ
несколько томов меньшего размера (меньше фрагментации?)

Было бы целесообразно создать zip-архив для каждого образца и хранить его вместо этого? Я бы колебался по этому поводу, потому что пользователи понимают папки интуитивно, а повреждение оказывает худшее влияние на архивы - мы могли бы позволить себе несколько поврежденных подпапок (образцы «пикселей», более или менее) в крайнем случае, но испортили весь образец архива было бы плохо.

19 ТБ на одном томе RAID-5 - это ужасно много. Вы не упоминаете, сколько у вас дисков в этом томе, но, будучи в Dell T710, я думаю, что весьма вероятно, что у вас больше 1 ТБ на диск. Меня раздражает такое большое количество участников RAID-5. Если это один диапазон RAID-5, это для меня еще страшнее. (Мне не нравится диапазон больше 5 или 6 дисков, особенно с такими большими дисками.)

Помимо вашего выбора RAID-5, по моему опыту, это довольно большое количество файлов, которые нужно обрабатывать NTFS. Все, что вы можете сделать, чтобы уменьшить количество хранимых файлов, улучшит производительность. Сжатие «образца», как вы описываете, радикально уменьшило бы количество файлов, которые вы запрашиваете у NTFS. В зависимости от того, насколько хорошо сжимаются ваши данные, вы также можете увидеть значительное увеличение производительности при передаче файлов по сети.

На мой взгляд, не стоит беспокоиться о «порче» данных. Если у вас недостаточно уверенности в том, что ваша система резервного копирования и основное хранилище будут работать без повреждения файлов, вам следует сосредоточиться на усилении этих «фундаментальных» компонентов. RAID-10 или RAID-50 были бы хорошим первым шагом на пути к расширению основного хранилища. Поскольку вы не говорите о том, как вы делаете резервную копию, я не могу об этом говорить.

Редактировать:

Я с подозрением отношусь к доступности RAID-5. Основная статья об этом Почему RAID 5 перестал работать в 2009 году. Суть в том, что частота ошибок по битам на больших дисках делает перестройку больших томов RAID-5 статистически маловероятной.

Если у вас есть другая копия данных за пределами сайта, это, вероятно, не так уж и важно. Вы должны подумать о том, каковы будут последствия полной потери тома RAID-5. Сможете ли вы развернуть новый том и продолжить работу, копируя данные из удаленной копии? Придется ли вам подождать, пока будет скопировано некоторое количество данных, прежде чем можно будет снова начать работу? Если будет простой, сколько будет стоить?

Вы потеряли место на диске, если у вас много маленьких файлов. Причина в размере блока вашей файловой системы. Мое первое предложение - использовать систему Linux для долгосрочной поддержки. И мое второе предложение - сохранять файлы без архивирования в файловой системе, потому что понимание системы гораздо важнее потери некоторых байтов. У меня была такая же проблема с геномными данными (анализатор дробовика). Мое третье предложение - использовать RAID10 или RAID50.