xpdf (pdftotext) с вызовом языкового пакета из другого каталога

Я экспериментирую с xpdf (pdftotext) на терминале macOS. Я использую один языковой пакет (японский). Все работает нормально, если я вызываю исполняемый файл следующим образом (из каталога lib):

lib kelly$ ./p2t -enc UTF-8 jp.pdf 

и моя структура данных

files/lib/pdftotext
files/lib/xpdfrc
files/lib/jp.pdf #file to convert
files/options/Enc/jp/ # Here I have the language package files

и следующий отредактированный файл конфигурации xpdfrc:

#----- begin Japanese support package (2011-sep-02)
cidToUnicode    Adobe-Japan1    ../options/Enc/jp/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP ../options/Enc/jp/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      ../options/Enc/jp/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   ../options/Enc/jp/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    ../options/Enc/jp/CMap
toUnicodeDir            ../options/Enc/jp/CMap
#----- end Japanese support package

проблема, с которой я столкнулся, заключается в том, чтобы вызвать «pdftoext» из другого каталога, например, из «файлов». В этом случае файлы, на которые указывают файлы конфигурации, не видны.

files kelly$ ./lib/p2t -enc UTF-8 ./lib/jp.pdf 

Я получаю следующую ошибку:

Syntax Error: Unknown character collection 'Adobe-Japan1'

И сгенерированный файл - мусор.

Любая идея о том, как нужно изменить файл конфигурации?


person Kelly o'Brian    schedule 03.11.2019    source источник


Ответы (1)


Мне удалось решить аналогичную проблему. Я установил pdftotext с варочной бочкой.

Установка производилась следующей командой

$ brew cask install pdftotext
$ pdftotext -v
pdftotext version 3.03
Copyright 1996-2011 Glyph & Cog, LLC

и поместите пакеты поддержки xpdfrc/language в следующий каталог, который я сделал.

ls /usr/local/etc/xpdfrc
/usr/local/etc/xpdfrc

Я скачал японский языковой пакет отсюда. https://www.xpdfreader.com/download.html

$ tree /usr/local/share/xpdf
/usr/local/share/xpdf
└── japanese
    ├── Adobe-Japan1.cidToUnicode
    ├── CMap
    │   ├── 78-EUC-H
    │   ├── 78-EUC-V
    │   ├── 78-H
    │   ├── 78-RKSJ-H
    │   ├── 78-RKSJ-V
    │   ├── 78-V
    │   ├── 78ms-RKSJ-H
    │   ├── 78ms-RKSJ-V
    │   ├── 83pv-RKSJ-H
    │   ├── 90ms-RKSJ-H
    │   ├── 90ms-RKSJ-UCS2
    │   ├── 90ms-RKSJ-V
    │   ├── 90msp-RKSJ-H
    │   ├── 90msp-RKSJ-V
    │   ├── 90pv-RKSJ-H
    │   ├── 90pv-RKSJ-UCS2
    │   ├── 90pv-RKSJ-UCS2C
    │   ├── 90pv-RKSJ-V
    │   ├── Add-H
    │   ├── Add-RKSJ-H
    │   ├── Add-RKSJ-V
    │   ├── Add-V
    │   ├── Adobe-Japan1-0
    │   ├── Adobe-Japan1-1
    │   ├── Adobe-Japan1-2
    │   ├── Adobe-Japan1-3
    │   ├── Adobe-Japan1-4
    │   ├── Adobe-Japan1-5
    │   ├── Adobe-Japan1-6
    │   ├── Adobe-Japan1-UCS2
    │   ├── EUC-H
    │   ├── EUC-V
    │   ├── Ext-H
    │   ├── Ext-RKSJ-H
    │   ├── Ext-RKSJ-V
    │   ├── Ext-V
    │   ├── H
    │   ├── Hankaku
    │   ├── Hiragana
    │   ├── Katakana
    │   ├── NWP-H
    │   ├── NWP-V
    │   ├── RKSJ-H
    │   ├── RKSJ-V
    │   ├── Roman
    │   ├── UniJIS-UCS2-H
    │   ├── UniJIS-UCS2-HW-H
    │   ├── UniJIS-UCS2-HW-V
    │   ├── UniJIS-UCS2-V
    │   ├── UniJIS-UTF16-H
    │   ├── UniJIS-UTF16-V
    │   ├── UniJIS-UTF32-H
    │   ├── UniJIS-UTF32-V
    │   ├── UniJIS-UTF8-H
    │   ├── UniJIS-UTF8-V
    │   ├── UniJIS2004-UTF16-H
    │   ├── UniJIS2004-UTF16-V
    │   ├── UniJIS2004-UTF32-H
    │   ├── UniJIS2004-UTF32-V
    │   ├── UniJIS2004-UTF8-H
    │   ├── UniJIS2004-UTF8-V
    │   ├── UniJISPro-UCS2-HW-V
    │   ├── UniJISPro-UCS2-V
    │   ├── UniJISPro-UTF8-V
    │   ├── UniJISX0213-UTF32-H
    │   ├── UniJISX0213-UTF32-V
    │   ├── UniJISX02132004-UTF32-H
    │   ├── UniJISX02132004-UTF32-V
    │   ├── V
    │   └── WP-Symbol
    ├── EUC-JP.unicodeMap
    ├── ISO-2022-JP.unicodeMap
    ├── README
    ├── Shift-JIS.unicodeMap
    └── add-to-xpdfrc

2 directories, 76 files

Содержимое xpdfrc следующее

$ cat /usr/local/etc/xpdfrc
cidToUnicode    Adobe-Japan1    /usr/local/share/xpdf/japanese/Adobe-Japan1.cidToUnicode
unicodeMap  ISO-2022-JP /usr/local/share/xpdf/japanese/ISO-2022-JP.unicodeMap
unicodeMap  EUC-JP      /usr/local/share/xpdf/japanese/EUC-JP.unicodeMap
unicodeMap  Shift-JIS   /usr/local/share/xpdf/japanese/Shift-JIS.unicodeMap
cMapDir     Adobe-Japan1    /usr/local/share/xpdf/japanese/CMap
toUnicodeDir            /usr/local/share/xpdf/japanese/CMap
person katsusuke    schedule 16.06.2020