Преобразовать PDF в текст без pdftotext?

Мне нужно преобразовать PDF-файлы в текст, и в настоящее время я использую pdftotext.exe. Иногда это портит результирующий текст, поэтому я не могу его использовать.

Есть ли другой бесплатный инструмент, который я могу вызвать из другой программы? Я бы предпочел инструмент командной строки.


person EOB    schedule 17.01.2012    source источник
comment
попробуйте этот: github.com/luochen1990/nodejs-easy-pdf-parser   -  person luochen1990    schedule 14.07.2018


Ответы (3)


PDF может быть сложно преобразовать в текст в зависимости от его структуры, но вы можете получить хорошие результаты с помощью iTextSharp или GhostScript или коммерческого компонента, например: с www.tallcomponents.com (не аффилированного)

person Mark Redman    schedule 17.01.2012
comment
Может ли iTextSharp также конвертировать из PDF в TXT? - person EOB; 17.01.2012
comment
Он может извлекать текст, см. здесь пример и другие параметры: /4711134/itextsharp-текстовое-извлечение - person Mark Redman; 17.01.2012

Файлы PDF обычно не содержат какой-либо структуры, поэтому программа должна угадать ее. Я написал сообщение в блоге по этим вопросам на http://www.jpedal.org/PDFblog/2009/04/pdf-text/

Вы также можете попробовать PdfBox.

person mark stephens    schedule 17.01.2012

Я считаю, что Apache PDFBox намного лучше, чем pdftotext. Он извлекает текст способом, который намного ближе к исходному форматированию документа. Его можно запустить из командной строки.

person bcoughlan    schedule 10.04.2013