Назад | Перейти на главную страницу

Возможно ли OCR в Linux?

Мне нужен сервер на базе Linux, который можно настроить для получения изображений и преобразования их в текст, который будет вставлен в базу данных. Возможно ли это, особенно через API, чтобы организация могла взаимодействовать со службой в случае необходимости?

Тезеракт кажется лучшим. http://code.google.com/p/tesseract-ocr/

Отзывы, кажется, говорят, что это единственный вариант, который лучше перепечатывает вещи. http://www.linux.com/archive/feature/138511 http://www.linux.com/archive/feed/57222

У людей нет денег в гуглить? 5 минут чтения того, что я обнаружил с помощью "linux ocr" в качестве условий поиска.

У меня был проект, для которого требовалось распознавание текста. Вы можете использовать GOCR для части OCR. Для преобразования в формат изображения pbm вы можете использовать djpeg. Если вам нужно интегрироваться с сетью, вы можете вызвать convert / ocr из PHP, также отсюда, чтобы реализовать сохранение БД.

Я бы установил очередь сообщений и отправлял в нее задачи для обработки. Все, что вам действительно нужно сделать, это загрузить файл в виде изображения на общую платформу хранения, возможно, GlusterFS или аналогичную, а затем поместить имя файла и путь в очередь сообщений для обработки. Все, что вам нужно сделать, это настроить процесс для прослушивания очереди и запустить на нем gocr, помещая выходные данные в вашу базу данных.

Легко .. В теории. ;)

Вы смотрели на WatchOCR? Это бесплатный сервер OCR с открытым исходным кодом, который преобразует PDF-файлы только с изображениями в PDF-файлы с возможностью поиска по тексту из просматриваемой папки или сетевой папки.