Избегает ли какое-либо из коммерческих хранилищ объектов IaaS (S3, BLOB-объекты Azure и т. Д.) Многократную оплату за хранение повторяющихся данных (идентичных файлов или частей файлов)? Например, у нас есть набор данных твитов 15 ТБ, и один из наших сотрудников хочет сделать копию, а затем внести в данные несколько изменений. Будем ли мы платить за 30 ТБ хранилища?
Есть ли хороший способ найти повторяющиеся фрагменты в этих хранилищах больших объектов или сжать большие наборы данных на месте? Можем ли мы заменить повторяющиеся файлы символическими ссылками?
Вы можете использовать дедупликацию на месте, которую могут выполнять некоторые решения для резервного копирования, Veeam например https://www.veeam.com/hyper-v-vmware-backup-deduplication-compression.html, и отправлять удаленные данные в облако, тем самым экономя пропускную способность сети. Это может быть полезно, особенно если своевременное восстановление критично.
У нас достаточно большое количество виртуальных машин, работающих в нашем производственном банкомате, с использованием Veeam и Starwind, поэтому я думаю, что это аналогичный случай. Также протестированы другие решения, например MS DPM и Backup Exec, но Veeam показали лучшие результаты.
Поставщики хранилищ (по крайней мере, AWS, Google и Microsoft) не выполняют дедупликацию и / или сжатие объектов BLOB-объектов. Это приводит к непредсказуемым задержкам, увеличению джиттера и увеличению потребления оперативной памяти. Нельзя сказать, что в таком сценарии невозможно реализовать хорошую биллинговую стратегию, а дедупликация объектов на нескольких серверах / зонах доступности - огромная технологическая проблема.
Вы можете реализовать сжатие на своей стороне. Дедупликация сложнее, потому что вам нужно будет поддерживать промежуточное ПО с хэш-таблицами и так далее.
Другой подход мог бы использовать ZFS на ваших экземплярах EC2 вместо S3. Вы можете присоединять тома EBS и монтировать их как тома ZFS, а ZFS имеет встроенные возможности для сжатия и дедупликации. Если вам нужны эти файлы / объекты в нескольких экземплярах EC2, вы всегда можете экспортировать и импортировать ZFS как общий ресурс NFS. Снова, дедупликация потребует дополнительной оперативной памяти.