Назад | Перейти на главную страницу

imagemagick: извлечение растровых изображений из PDF как есть

Я знаю, как использовать imagemagick's convert для рендеринга PDF-файла и создания новых изображений из PDF-страницы, включая растровые и векторные изображения, визуализированные с желаемым разрешением.

Но проблема с этим подходом заключается в том, что растровые изображения повторно дискретизируются для нового разрешения. Я хотел бы иметь возможность извлекать растровые изображения точно в том виде, в котором они хранятся в PDF.

Я хочу, чтобы это улучшило контраст отсканированных PDF-файлов, где PDF-файлы являются не чем иным, как архивом для растровых изображений. Например. http://www.datamath.net/Manuals/TI-66_Manual_US.pdf

Я бы хотел, чтобы первым шагом было извлечение как можно более оригинальных растровых изображений из PDF.

Примечание: я ограничиваю это imagemagick, чтобы решение было переносимым. Но если вы знаете, что то же самое можно сделать с помощью таких распространенных инструментов unix, как imagemagick, поделитесь, пожалуйста!

(не стесняйтесь добавлять ответы, если есть способ использовать imagemagick)

Нашел [0] решение с использованием poppler, которое, как мне кажется, так же популярно, как imagemagick

pdfimages -all -p TI-66_Manual_US.pdf ./

Вышеупомянутое извлечет все форматы изображений из pdf в локальный каталог и добавит номера страниц. Почему-то добавляется "." перед именем файла, так что просто запустите ...

for f in .*jpg; do mv $f a$f; done

... добавить "a" перед точкой, чтобы с ними было легче работать.

[0] источник: https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/