Я ищу способ эффективно управлять и использовать контрольные суммы на уровне файлов для всех файлов в файловой системе с течением времени.
Цели:
Настраиваемое быстрое обновление - повторное вычисление контрольных сумм больших файлов только тогда, когда другие критерии указывают на вероятное изменение (размер файла, временная метка, изменение первого и последнего блока и т. Д.). Я говорю «настраиваемый», потому что некоторые варианты использования не могут доверять тому, что отметки времени не были изменены, и т. Д.
Быстрый запрос определенной контрольной суммы (другими словами, ответ на вопрос «У меня уже есть этот файл?») По всей файловой системе
Способ сравнения данных по файловым системам (либо непосредственно в решении, либо машиночитаемый экспорт, чтобы сравнение могло быть выполнено в сценарии)
Поддержка нескольких хешей
Отчет о дублированных файлах (я не ожидаю, что решение проведет меня через интерактивный сеанс дедупликации; подойдет машиносчитываемый отчет)
Приятно иметь: способ необязательно (повторно) сгенерировать традиционные файлы контрольной суммы в каждом каталоге («CHECKSUM», «MD5SUM» или аналогичные), чтобы подкаталоги, предоставляемые через FTP или Интернет, могли легко использовать контрольные суммы
Ключевая идея состоит в том, чтобы хеши кэшировались таким образом, чтобы их можно было быстро обновлять и быстро запрашивать.