Почему pdftotext иногда склеивает слова?

Я пытаюсь преобразовать некоторые pdf-файлы в текст, используя pdftotext, и преобразование происходит, но некоторые слова сливаются. Например, the 2nd day становится the2nd day, before me становится beforeme и так далее. Почему это происходит и как мне избавиться от этих расхождений?

Я пытался использовать okular (так как я использую Linux) для преобразования pdf в текст, но это также дает мне такой же результат. И это беспокоит, потому что сильно мешает извлечению текста.

anushka 09.09.2019 источник

comment

Соответствующий stackoverflow.com/a/11087993/5320906 - snakecharmerb 09.09.2019

comment

@snakecharmerb спасибо, что указали мне на это. Теперь я понимаю, что место в PDF-файле может быть недоступно для печати, если оно не выбрано в программе для чтения PDF-файлов. Но каким было бы решение найти эти места и поставить пробелы, чтобы слово раздавить не произошло. - anushka 09.09.2019

Почему pdftotext иногда склеивает слова?

Похожие вопросы