Назад | Перейти на главную страницу

Инструменты Linux для поиска повторяющихся файлов?

У меня есть большой и постоянно растущий набор текстовых файлов, которые все довольно маленькие (менее 100 байт). Я хочу сравнить каждую возможную пару файлов и отметить, какие из них дублируются. Я мог бы написать сценарий Python для этого, но мне интересно, есть ли существующий инструмент командной строки Linux (или, возможно, простая комбинация инструментов), который мог бы это сделать?

Обновить (в ответ на mfinni комментарий): все файлы находятся в одном каталоге, поэтому все они имеют разные имена. (Но все они имеют общее расширение имени файла, что позволяет легко выбрать их все с помощью подстановочного знака.)

Есть fdupes. Но обычно я использую комбинацию find . -type f -exec md5sum '{}' \; | sort | uniq -d -w 36

Ну, есть FSlint, который я не использовал в этом конкретном случае, но я должен справиться с этим: http://en.flossmanuals.net/FSlint/Introduction

Вы почти наверняка не захотите различать каждую пару файлов. Вы, вероятно, захотите использовать что-то вроде md5sums, чтобы получить все контрольные суммы всех файлов и передать их в какой-либо другой инструмент, который будет сообщать только дублированные контрольные суммы.