Назад | Перейти на главную страницу

Помощь при дедупликации

Мы объединили пару дисков и систем NAS нашего бывшего коллеги до того, как диски вышли из строя (некоторые из них действительно демонстрировали признаки деградации). Теперь мы знаем, что наш коллега выполнил «RAID вручную», также известный как «копирование данных между дисками» ... и в результате получил набор данных размером 16 ТБ, при этом каждый диск был выгружен в отдельный каталог на массиве с поддержкой RAID5. NAS.

Итак, я пошел вперед и позволил fdupes работать с данными, показывая колоссальные 9 ТБ дубликатов в общем, возможно, 1 млн файлов. Проблема в том, что он не выводил список, и многие повторяющиеся файлы на самом деле являются законными дубликатами (например, ресурсы шрифтов, многократно копируемые между проектами). Есть ли какой-либо программный инструмент командной строки (это важно, поскольку по соображениям производительности мне приходится запускать его непосредственно на NAS через доступ ssh), который может помочь идентифицировать всю деревья каталогов, которые обманывают?

Что еще хуже: некоторые данные поступали с дисков HFS + Apple, а некоторые - со старого NAS на базе Linux, доступ к которым с компьютеров Mac осуществляется через SMB / CIFS. Хотя кодировка имени файла выглядит нормально, дамп данных, полученный от NAS, содержит массу .AppleDouble файлы. Таким образом, инструмент должен иметь возможность игнорировать все, что связано с Apple (Spotlight, вилки ресурсов, эскизы).

linux deduplication