Назад | Перейти на главную страницу

Индексирование файлов PDF в Ubuntu

Я ищу решение в Ubuntu, которое индексирует файлы PDF (и ps?) Для последующего поиска.

Критерии будут следующими:

  1. Совместимость: часто извлечение текста зависит от того, какое программное обеспечение использовалось для создания PDF-файла. Некоторые PDF-файлы также могут быть «заблокированы», что, я думаю, следует уважать.
  2. Функциональность поиска: подстановочные знаки, регулярные выражения, "нечеткое" соответствие.
  3. Скорость поиска

В моем случае я хочу проиндексировать папку статей академических журналов, следовательно, требуется, чтобы она работала последовательно независимо от того, какое программное обеспечение создало PDF. Я уже использую справочник, поэтому не хочу его заменять.

Например: хороший интерфейс для Beagle и плагин, позволяющий индексировать PDF-файлы, были бы идеальными.

Lucene выполняет полнотекстовое индексирование PDF, HTML, Microsoft Word и OpenDocument. Это просто библиотека, но ее используют несколько приложений / CMS, или вы можете использовать ее как основу для своего собственного решения.

Это бесплатное программное обеспечение (лицензия Apache).

Редактировать:

Если вы ищете что-то с интерфейсом, вы можете рассмотреть Beagle или Strigi:

Бигль

Стриги

Tracker делает то же самое, что и Beagle и Strigi, но, в отличие от Beagle, он написан на чистом C (Beagle - это приложение Mono). Предположительно, он намного быстрее, чем Beagle, хотя я сам не подсчитывал.

Я не могу найти вам ссылку на Tracker, но уверен, что она находится в репозиториях Ubuntu по умолчанию.

я использую рабочий стол Google для поиска в linux. Не бесплатно, но это лучшее, что я нашел.