Я пытаюсь преобразовать некоторые pdf-файлы в текст, используя pdftotext, и преобразование происходит, но некоторые слова сливаются. Например, the 2nd day
становится the2nd day
, before me
становится beforeme
и так далее. Почему это происходит и как мне избавиться от этих расхождений?
Я пытался использовать okular (так как я использую Linux) для преобразования pdf в текст, но это также дает мне такой же результат. И это беспокоит, потому что сильно мешает извлечению текста.