PDF в текст искажает латинские акценты

У меня есть несколько PDF-файлов, написанных на бразильском португальском языке, которые я хотел бы проанализировать и обработать. Я пытался использовать инструменты командной строки для извлечения текста PDFBox (вообще без аргументов), но получаю следующие результаты:

Cão 

заканчивается как

C~
ao

Кроме того, копирование и вставка текста или экспорт его в виде текста с помощью Adobe Reader приводит к тем же результатам. Делая то же самое (PDFBox, копирование и вставка, экспорт Adobe Reader) с другими файлами, мне удалось извлечь текст, как и ожидалось («Cão»), поэтому, не будучи экспертом по PDF, я полагаю, что это связано с тем, как файлы были созданы. Я хотел бы знать, видел ли кто-нибудь такое поведение и как его обойти при извлечении текста.


person Grasshopper    schedule 06.12.2013    source источник
comment
Что вы используете для извлечения текста? Этот вопрос очень неполный.   -  person Jean-Bernard Pellerin    schedule 06.12.2013
comment
Как вы используете PDFBox?   -  person Dour High Arch    schedule 06.12.2013
comment
почему извлечение текста для этих конкретных документов испорчено. - Как подразумевал @DourHighArch, вы, вероятно, неправильно используете PDFBox. Если вы ожидаете, что мы проверим это, предоставьте код. Кроме того, вы упоминаете, что это проблема только с некоторыми документами. Возможно, эти документы просто предоставляют неверную информацию о своем содержании (см., например, этот ответ). Если вы ожидаете, что мы это проверим, предоставьте соответствующий PDF-файл.   -  person mkl    schedule 06.12.2013
comment
Я использую инструменты командной строки для извлечения текста PDFBox [pdfbox.apache.org/commandline/#extractText] без параметров.   -  person Grasshopper    schedule 08.12.2013
comment
Прочтите joelonsoftware.com/articles/Unicode.html.   -  person fuesika    schedule 08.12.2013


Ответы (1)


Итак, благодаря Stack Overflow мне удалось найти сообщение ниже:

Как заставить работать извлечение текста из PDF?

который дал мне информацию, которую я искал. По-видимому, PDF-файлы создаются без информации, необходимой для понимания латинских символов.

person Grasshopper    schedule 08.12.2013