Почему pdftotext иногда склеивает слова?

Я пытаюсь преобразовать некоторые pdf-файлы в текст, используя pdftotext, и преобразование происходит, но некоторые слова сливаются. Например, the 2nd day становится the2nd day, before me становится beforeme и так далее. Почему это происходит и как мне избавиться от этих расхождений?

Я пытался использовать okular (так как я использую Linux) для преобразования pdf в текст, но это также дает мне такой же результат. И это беспокоит, потому что сильно мешает извлечению текста.


person anushka    schedule 09.09.2019    source источник
comment
Соответствующий stackoverflow.com/a/11087993/5320906   -  person snakecharmerb    schedule 09.09.2019
comment
@snakecharmerb спасибо, что указали мне на это. Теперь я понимаю, что место в PDF-файле может быть недоступно для печати, если оно не выбрано в программе для чтения PDF-файлов. Но каким было бы решение найти эти места и поставить пробелы, чтобы слово раздавить не произошло.   -  person anushka    schedule 09.09.2019