NetApp обеспечивает дедупликацию на уровне блоков (ASIS). Знаете ли вы какую-либо файловую систему (даже на основе FUSE) в Linux (или OpenSolaris, * BSD), которая обеспечивает такую же функциональность?
(Меня не интересует ложная дедупликация, как жесткие ссылки).
Дедупликация приближается к ZFS на OpenSolaris, но эта функция в настоящее время недоступна.
Прошлой зимой он был создан Джеффом Бонвиком и Биллом Муром, а этим летом они работают над его интеграцией. Так что он должен быть доступен в следующем выпуске OpenSolaris или раньше, если вы хотите поиграть с веткой разработки.
Проверьте lessFS, файловую систему дедупликации данных для Linux. Он все еще находится в стадии бета-тестирования, но вы можете попробовать:
С Уважением,
MV
Для людей, которые могут быть незнакомы с дедупликацией данных, это метод, при котором данные анализируются на уровне файла (или блока, я полагаю), и где идентичные файлы / блоки во всей файловой системе заменяются меньшим токеном. Это приводит к значительному уменьшению эффективного размера на диске. Это можно рассматривать как форму копирование при записи. Прочтите страница вики в теме.
В Linux нет файловой системы, о которой я слышал, для дедупликации, файлового или блочного уровня. Такой зверь был бы кстати, хотя и довольно ресурсоемким.
Дедупликация теперь доступна в ZFS на OpenSolaris (сборка 128a и новее).
Год спустя, но вот решение для OpenBSD под названием Epitome: http://www.peereboom.us/epitome/. При условии либерального лицензирования, он вполне может войти в ядро Linux.
Я только что опубликовал проект, над которым работаю, который выполняет встроенную дедупликацию. Вы можете взглянуть на это Вот если вы заинтересованы. Он основан на fuse и работает под Linux.
Я не знаю бесплатных реализаций дедупликации для Linux. Я видел, как некоторые поставщики хранилищ рекомендуют использовать систему HSM (иерархическое управление хранилищем) с VTL (виртуальная библиотека хранилища), которая выполняет дедупликацию.
Вы также можете рассмотреть Оккарина как система, которая непрозрачна, но может обеспечить лучшие результаты, чем дедупликация.
итак ... нет новостей о дедупликации в Linux? opendedup может быть выбором, но, учитывая платформу Java, на которой она работает, я не хочу получить головную боль. Я пробовал это, да, но эта Java-машина и остальные не очень хорошо справляются с моими потребностями в времени отклика хранилища и безопасности.
Опция дедупликации доступна в Linux в файловых системах BTRFS и ZFS. BTRFS изначально разработана под Linux и имеет автономный инструмент дедупликации. Я не думаю, что "офлайн", вы должны размонтировать fs. Автономный режим означает, что активно записываемые данные не дедуплицируются. Но позже вы запустите инструмент для дедупликации мыслей, хранящихся сейчас. На самом деле, вероятно, инструмент находится в стадии бета-тестирования. Другой путь - внутри ZFS. Доступно как FUSE и изначально: http://zfsonlinux.org/ . Это делает оперативную дедупликацию, к сожалению, это замедляет запись, потому что все должно быть вычислено на лету. Вы можете в сети отключиться от этого поведения. После отключения дедупликации все дедуплицированные данные по-прежнему будут храниться как дедуплицированные. Новые записи будут сохранены как «дублированные». Если вы хотите дедуплицировать эти данные в будущем, вы должны включить дедупликацию и перезаписать все «дублированные» файлы.
См. Документ, доступный на странице. Для ускорения записи и чтения вы можете добавить более быстрые устройства в пул хранения (особенно SDD-диски или, возможно, более быструю флэш-память USB, обратите внимание на надежность устройства).
DRBD делает именно это и делает это очень хорошо! Может делать Master / Slave или Master / Master :-)