Назад | Перейти на главную страницу

Технические сведения о функции дедупликации в Server 2012

Теперь, когда Windows Server 2012 поставляется с функции дедупликации для томов NTFS Мне сложно найти технические подробности об этом. Из документации TechNet я могу сделать вывод, что действие дедупликации само по себе является асинхронным процессом - мало чем отличается от того, как SIS Groveler раньше работало - но практически нет подробностей о реализации (используемые алгоритмы, необходимые ресурсы, даже информация о производительности - не что иное, как набор практических рекомендаций).

Мы очень ценим понимание и указатели, сравнение с эффективностью дедупликации ZFS Solaris для набора сценариев было бы замечательно.

Как я и подозревал, он основан на подсистеме VSS (источник), что также объясняет его асинхронный характер. Чанки de-dupe хранятся в \System Volume Information\Dedup\ChunkStore\*, с настройками в \System Volume Information\Dedup\Settings\*. Это существенно влияет на то, как ваше программное обеспечение резервного копирования взаимодействует с такими томами, что объясняется в связанной статье (вкратце: без поддержки дедупликации ваши резервные копии будут того же размера, что и всегда, с поддержкой дедупликации вы просто создадите резервную копию гораздо меньший магазин дедупликации).

Что касается используемых методов, лучшее, что я смог найти, - это исследовательская работа, опубликованная исследователем Microsoft в 2011 году (источник, полный текст) на конференции Usenix FAST11. Раздел 3.3 переходит в Дедупликация в основном хранилище. Похоже, что эти данные использовались при разработке функции дедупликации NTFS. Эта цитата была использована:

Канонический алгоритм для блоков переменного размера с определением содержимого - это Rabin Fingerprints [25].

В документе есть много данных, которые нужно проанализировать, но сложность набора инструментов, который они использовали, в сочетании с функциями, которые, как мы знаем, были уже в 2012 году, убедительно свидетельствуют о том, что рассуждения в документе были использованы для разработки функций. Не могу сказать наверняка без статей по msdn, но на данный момент это так близко, как мы могли бы получить.

Сравнение производительности с ZFS придется подождать, пока тестеры не закончат с этим.