Назад | Перейти на главную страницу

pdftotext не выводит символы иврита

я использую Xpdfс pdftotext чтобы получить текст из некоторых файлов PDF на иврите в Ubuntu.

На моей локальной машине это работало нормально. Затем я попытался сделать это на другом компьютере, и символы иврита не отображаются в текстовом файле. Я подтвердил, что у меня есть языковой пакет (почему я так думаю, см. Ниже). Где еще искать проблему?

>> tail -2 /etc/xpdf/xpdfrc
include /etc/xpdf/includes

>> cat /etc/xpdf/includes
# This file was automatically generated by /usr/sbin/update-xpdfrc.
# Instead, add or remove files in /etc/xpdf/ then run
# /usr/sbin/update-xpdfrc to regenerate this file.
include /etc/xpdf/xpdfrc-latin2
include /etc/xpdf/xpdfrc-thai
include /etc/xpdf/xpdfrc-greek
include /etc/xpdf/xpdfrc-turkish
include /etc/xpdf/xpdfrc-arabic
include /etc/xpdf/xpdfrc-hebrew
include /etc/xpdf/xpdfrc-cyrillic

>> cat /etc/xpdf/xpdfrc-hebrew
#----- begin Hebrew support package (2003-feb-16)
unicodeMap  ISO-8859-8  /usr/share/xpdf/hebrew/ISO-8859-8.unicodeMap
unicodeMap  Windows-1255    /usr/share/xpdf/hebrew/Windows-1255.unicodeMap
#----- end Hebrew support package

>> ls /usr/share/xpdf/hebrew/
ISO-8859-8.unicodeMap  Windows-1255.unicodeMap

К счастью, дружелюбные сотрудники Ubuntu упростили установку языков. Просто введите эту команду в свою оболочку:

sudo apt-get install language-support-he language-pack-he

Вы заметите, что он добавляет поддержку иврита во многие другие подсистемы (например, HSpell, Myspell и PostgreSQL), а также устанавливает некоторые шрифты для иврита.

Для удобства установите следующие шрифты на иврите:

sudo apt-get install culmus culmus-fancy xfonts-efont-unicode xfonts-efont-unicode-ib xfonts-intl-european msttcorefonts

И, наконец, убедитесь, что при запуске pdftotext вы указываете формат кодировки UTF-8, поскольку он может не определять ваш источник автоматически:

pdftotext -enc UTF-8 input.pdf output.txt

Вы должны взглянуть на TET, набор инструментов для извлечения текста от PDFlib.com (под управлением Томаса Мерца, автора книги "PostScript and PDF Bible").

TET - это в основном библиотека для использования в других приложениях для обработки PDF, но они также ...

  • ... построил на его основе мощный инструмент командной строки под названием «TET iFilter» (бесплатный, как в пиве);
  • ... построил плагин Acrobat (бесплатный как в пиве)

Он может извлекать текст, не являющийся ASCII, из PDF-файлов (inkl. CJK, иврит, арабский), восстанавливать лигатурные глифы до их исходных пар или трио символов, и в целом он запускает круги вокруг собственных возможностей Adobe по извлечению текста ...

Он доступен для Windows, Linux, Mac OS X и различных систем Unix.