Есть ли инструменты для автоматизации распознавания текста отсканированных файлов PDF аналогично функции распознавания текста в Acrobat?

Открытый исходный код предпочтительнее, но не обязательно.

У меня есть Adobe Acrobat 8, и мне очень нравится функция OCR, которая, по сути, может помещать невидимый слой текста OCR поверх отсканированного документа. Таким образом, то, что вы видите на экране, является исходным отсканированным документом, но результат доступен для поиска.

Я ищу способ автоматизировать этот процесс. В настоящее время у меня есть несколько сценариев, которые мы используем для обработки и архивирования отсканированных файлов, и я ищу что-нибудь, что я могу подключить прямо к этому пакетному процессу, чтобы выполнять оптическое распознавание текста аналогично тому, что я могу делать с Acrobat.

Все предложения приветствуются, спасибо!

Я реализовал это в проекте архивирования документов компании. Отсканированный файл представляет собой файл в формате tif (одностраничный). Затем используя Клинопись для создания файла hocr единственного tif. Затем используя hocr2pdf для вывода файла PDF. При сканировании нескольких страниц я использую gs для объединения PDF-файлов в один PDF-документ. Работает очень хорошо, OCR достаточно хорошо для наших нужд и доступно для поиска в любой программе просмотра PDF.

Вы смотрели WatchOCR? Вы можете скачать его http://www.watchocr.com Это бесплатный сервер OCR с открытым исходным кодом, который преобразует PDF-файлы только с изображениями в PDF-файлы с возможностью поиска по тексту из просматриваемой папки или сетевого ресурса.

Хотя мне нравятся звуки ответа xeon Осьминог звучит очень весело.