Я знаю, как использовать imagemagick's convert
для рендеринга PDF-файла и создания новых изображений из PDF-страницы, включая растровые и векторные изображения, визуализированные с желаемым разрешением.
Но проблема с этим подходом заключается в том, что растровые изображения повторно дискретизируются для нового разрешения. Я хотел бы иметь возможность извлекать растровые изображения точно в том виде, в котором они хранятся в PDF.
Я хочу, чтобы это улучшило контраст отсканированных PDF-файлов, где PDF-файлы являются не чем иным, как архивом для растровых изображений. Например. http://www.datamath.net/Manuals/TI-66_Manual_US.pdf
Я бы хотел, чтобы первым шагом было извлечение как можно более оригинальных растровых изображений из PDF.
Примечание: я ограничиваю это imagemagick, чтобы решение было переносимым. Но если вы знаете, что то же самое можно сделать с помощью таких распространенных инструментов unix, как imagemagick, поделитесь, пожалуйста!
(не стесняйтесь добавлять ответы, если есть способ использовать imagemagick)
Нашел [0] решение с использованием poppler, которое, как мне кажется, так же популярно, как imagemagick
pdfimages -all -p TI-66_Manual_US.pdf ./
Вышеупомянутое извлечет все форматы изображений из pdf в локальный каталог и добавит номера страниц. Почему-то добавляется "." перед именем файла, так что просто запустите ...
for f in .*jpg; do mv $f a$f; done
... добавить "a" перед точкой, чтобы с ними было легче работать.
[0] источник: https://www.cyberciti.biz/faq/easily-extract-images-from-pdf-file/