Ошибки «pdftotext», обнаруженные в Windows 7, те же PDF-файлы корректно обрабатываются в Linux

У меня есть старая версия Linux (0.12.4) pdftotext, которая работает без проблем, но я хотел бы запустить ее на машине с Windows 7.

Я загрузил установщик Windows для последней версии, xpdf-2.03-bin.exe с http://gnuwin32.sourceforge.net/packages/xpdf.htm.

Я принял все настройки установщика по умолчанию. Когда я запустил Windows 7 pdftotext в файле PDF, который версия для Linux обрабатывала правильно, я получил следующую серию сообщений об ошибках:

 - Error <0>: PDF file is damaged - attempting to reconstruct xref table ...
 - Error: Couldn't find trailer dictionary
 - List item Error: Couldn't read xref table

Я выполнил поиск в Интернете по этим сообщениям об ошибках, но ни одна из проблем, связанных с этими ошибками, не была связана с моей проблемой.

Кто-нибудь сталкивался с этой проблемой с pdftotext в Windows 7 или знает, как ее решить?


person LFleming    schedule 10.10.2014    source источник
comment
Ваша версия 2.03 pdftotext для Windows наверняка НЕ является последней версией. Этой версии более 11 лет. Последняя версия Windows 3.04, ей всего 8 месяцев. (Ваша версия Linux 0.12.4 на самом деле новее: она возникла 5 лет назад, но она основана на «форке» кодовой базы, которая обеспечивает вашу версию Windows.)   -  person Kurt Pfeifle    schedule 13.01.2015


Ответы (1)


Судя по номерам версий:

  • 0.12.4 в Linux
  • 2.03 в Windows

вы, кажется, используете двух очень разных зверей, оба содержат утилиту с именем pdftotext:

  • Версия 0.12.4 — это версия pdftotext на основе Poppler, выпущенная в феврале 2010 года. Сейчас ей почти 5 лет, и сегодня она довольно устарела. Poppler — это 'форк' исходной кодовой базы XPDF, который произошел в 2005 году. С тех пор, как произошел форк, он разрабатывался быстрее, чем "материнский" код, и приобрел гораздо больше дополнительных + полезные функции. Однако трудно найти предварительно скомпилированные двоичные файлы для Windows. Последний выпуск — 0.30.0 (январь 2015 г.).

  • Версия 2.03 представляет собой версию pdftotext на основе XPDF, выпущенную в октябре 2003 года. Поскольку ей уже более 11 лет, она древняя. XPDF — это оригинальное программное обеспечение, предоставляющее утилиту pdftotext. Впервые он был выпущен в 1995 году. Он до сих пор развивается, хотя и медленнее, чем вилка Poppler. Его последний выпуск — версия 3.04 (май 2014 г.), и его можно загрузить здесь. . Внимание -- вас может заинтересовать: в этом релизе появился новый экстрактор текста!

person Kurt Pfeifle    schedule 13.01.2015