PDF в текст искажает латинские акценты

У меня есть несколько PDF-файлов, написанных на бразильском португальском языке, которые я хотел бы проанализировать и обработать. Я пытался использовать инструменты командной строки для извлечения текста PDFBox (вообще без аргументов), но получаю следующие результаты:

Cão

заканчивается как

C~
ao

Кроме того, копирование и вставка текста или экспорт его в виде текста с помощью Adobe Reader приводит к тем же результатам. Делая то же самое (PDFBox, копирование и вставка, экспорт Adobe Reader) с другими файлами, мне удалось извлечь текст, как и ожидалось («Cão»), поэтому, не будучи экспертом по PDF, я полагаю, что это связано с тем, как файлы были созданы. Я хотел бы знать, видел ли кто-нибудь такое поведение и как его обойти при извлечении текста.

pdf latin1

Grasshopper 06.12.2013 источник

comment

Что вы используете для извлечения текста? Этот вопрос очень неполный. - Jean-Bernard Pellerin 06.12.2013

comment

Как вы используете PDFBox? - Dour High Arch 06.12.2013

comment

почему извлечение текста для этих конкретных документов испорчено. - Как подразумевал @DourHighArch, вы, вероятно, неправильно используете PDFBox. Если вы ожидаете, что мы проверим это, предоставьте код. Кроме того, вы упоминаете, что это проблема только с некоторыми документами. Возможно, эти документы просто предоставляют неверную информацию о своем содержании (см., например, этот ответ). Если вы ожидаете, что мы это проверим, предоставьте соответствующий PDF-файл. - mkl 06.12.2013

comment

Я использую инструменты командной строки для извлечения текста PDFBox [pdfbox.apache.org/commandline/#extractText] без параметров. - Grasshopper 08.12.2013

comment

Прочтите joelonsoftware.com/articles/Unicode.html. - fuesika 08.12.2013

Ответы (1)

arrow_upward
0
arrow_downward

Итак, благодаря Stack Overflow мне удалось найти сообщение ниже:

Как заставить работать извлечение текста из PDF?

который дал мне информацию, которую я искал. По-видимому, PDF-файлы создаются без информации, необходимой для понимания латинских символов.

Grasshopper 08.12.2013

PDF в текст искажает латинские акценты

Ответы (1)

Похожие вопросы