У меня есть несколько PDF-файлов, написанных на бразильском португальском языке, которые я хотел бы проанализировать и обработать. Я пытался использовать инструменты командной строки для извлечения текста PDFBox (вообще без аргументов), но получаю следующие результаты:
Cão
заканчивается как
C~
ao
Кроме того, копирование и вставка текста или экспорт его в виде текста с помощью Adobe Reader приводит к тем же результатам. Делая то же самое (PDFBox, копирование и вставка, экспорт Adobe Reader) с другими файлами, мне удалось извлечь текст, как и ожидалось («Cão»), поэтому, не будучи экспертом по PDF, я полагаю, что это связано с тем, как файлы были созданы. Я хотел бы знать, видел ли кто-нибудь такое поведение и как его обойти при извлечении текста.