Я ищу решение в Ubuntu, которое индексирует файлы PDF (и ps?) Для последующего поиска.
Критерии будут следующими:
В моем случае я хочу проиндексировать папку статей академических журналов, следовательно, требуется, чтобы она работала последовательно независимо от того, какое программное обеспечение создало PDF. Я уже использую справочник, поэтому не хочу его заменять.
Например: хороший интерфейс для Beagle и плагин, позволяющий индексировать PDF-файлы, были бы идеальными.
Lucene выполняет полнотекстовое индексирование PDF, HTML, Microsoft Word и OpenDocument. Это просто библиотека, но ее используют несколько приложений / CMS, или вы можете использовать ее как основу для своего собственного решения.
Это бесплатное программное обеспечение (лицензия Apache).
Редактировать:
Если вы ищете что-то с интерфейсом, вы можете рассмотреть Beagle или Strigi:
Tracker делает то же самое, что и Beagle и Strigi, но, в отличие от Beagle, он написан на чистом C (Beagle - это приложение Mono). Предположительно, он намного быстрее, чем Beagle, хотя я сам не подсчитывал.
Я не могу найти вам ссылку на Tracker, но уверен, что она находится в репозиториях Ubuntu по умолчанию.
я использую рабочий стол Google для поиска в linux. Не бесплатно, но это лучшее, что я нашел.