Назад | Перейти на главную страницу

Дедупликация tar-архивов

Теперь я пытаюсь настроить ZFS с дедупликацией на моем сервере резервного копирования Linux, и у меня есть вопрос. Например, у меня есть 1k файлов в backup1.tar и 1k таких же файлов и 1 новый в backup2.tar. Эти файлы будут дедуплицироваться или нет? Как я вижу, это не работает с архивами tar. Может я что-то не так делаю.

Возможно, некоторые блоки из смол будут такими же, но маловероятно. ZFS выполняет дедупликацию на уровне блоков (на языке ZFS это называется размером записи), поэтому отдельные блоки должны быть идентичными. По сути, гарантируется, что tars будут запускать один и тот же контент, но маловероятно, что это будет составлять целый блок и будет ли оно выровнено по блокам.

Если вы хотите использовать дедупликацию ZFS для резервного копирования, используйте моментальные снимки и функции отправки / получения. У этого есть обычный недостаток использования свободного пространства (хранилище выделяется файлам в блоках размера записи, если файл не использует весь блок, остается пространство, которое тратится впустую). Tar позволяет избежать этой «проблемы», но вам придется создавать инкрементные резервные копии tar, чтобы воссоздать эффект дедупликации.

Дедупликация ZFS является блочной, поэтому она должна учитывать содержимое вашего архива.

Насколько велик архив TAR?
У вас уже включено сжатие?
Какой метод вы используете для определения коэффициента дедупликации? Стандартные методы: zpool status -D poolname или zpool get dedupratio poolname