Вопросы по теме 'pdftotext'

Преобразовать PDF в текст без pdftotext?
Мне нужно преобразовать PDF-файлы в текст, и в настоящее время я использую pdftotext.exe . Иногда это портит результирующий текст, поэтому я не могу его использовать. Есть ли другой бесплатный инструмент, который я могу вызвать из другой...
4923 просмотров
schedule 22.04.2022

itextsharp PdfTextExtractor Неправильное написание слов
В нашей базе данных есть файл PDF в двоичном формате. Я выложил его в потоковом режиме и сохранил как файл PDF, протестировал с обоими источниками и получил тот же результат: PdfTextExtractor неправильно произносит некоторые слова. Например, в...
1547 просмотров
schedule 24.04.2022

Ошибки «pdftotext», обнаруженные в Windows 7, те же PDF-файлы корректно обрабатываются в Linux
У меня есть старая версия Linux (0.12.4) pdftotext , которая работает без проблем, но я хотел бы запустить ее на машине с Windows 7. Я загрузил установщик Windows для последней версии, xpdf-2.03-bin.exe с...
853 просмотров
schedule 07.09.2023

Как извлечь текст из PDF с помощью iTextSharp версии 4.1.6?
Я хочу использовать более старую версию iTextSharp, поскольку она поставляется с лицензией LGPL. но я не знаю метод, используемый в более старой версии для чтения текста из PDF. Раньше я использовал версию 5.5 и знаю метод для этой версии. здесь я...
519 просмотров
schedule 22.08.2022

Допустимый размер памяти 134217728 байт ошибка при использовании библиотеки PdfParser
Я пытаюсь извлечь данные из файлов PDF с помощью библиотеки PdfParser. Когда я попробовал это с несколькими большими и умеренно сложными файлами PDF, это дало мне ошибку: допустимый размер памяти 134217728 байт Мне нужно какое-то...
387 просмотров
schedule 07.05.2022

Получение значений (id, PurchaseOrderNumber и сумма) из файла PDF в Laravel?
Я пытаюсь получить значения из загруженного файла PDF. Поэтому, когда файл успешно загружен, я хочу получить некоторые данные, в частности, идентификатор, PurchaseOrderNo и сумму из этого PDF-файла. До сих пор я обращался к spatie/pdf-to-text , и...
170 просмотров
schedule 07.04.2023

Извлечение текста из PDF по столбцам, причем столбцы различаются по размеру и положению.
Как я могу извлечь текст из файла PDF, разделенного на столбцы, таким образом, чтобы получить результат, разделенный этими столбцами? Эти столбцы могут быть разной высоты и иногда могут занимать несколько страниц. Ниже приведено изображение...
624 просмотров
schedule 15.09.2022

Почему pdftotext иногда склеивает слова?
Я пытаюсь преобразовать некоторые pdf-файлы в текст, используя pdftotext, и преобразование происходит, но некоторые слова сливаются. Например, the 2nd day становится the2nd day , before me становится beforeme и так далее. Почему это...
39 просмотров
schedule 14.05.2022

xpdf (pdftotext) с вызовом языкового пакета из другого каталога
Я экспериментирую с xpdf (pdftotext) на терминале macOS. Я использую один языковой пакет (японский). Все работает нормально, если я вызываю исполняемый файл следующим образом (из каталога lib): lib kelly$ ./p2t -enc UTF-8 jp.pdf и моя...
372 просмотров
schedule 17.12.2022

Как использовать pdftotext для нескольких файлов PDF?
Может ли кто-нибудь здесь помочь мне в моей проблеме? У меня есть этот код для отображения вывода файла PDF в Интернете с использованием pdftotext include ( 'PdfToText-master/PdfToText.phpclass' ) ; <form action="" method="post"...
146 просмотров
schedule 24.04.2023

Ошибка преобразования PDF в текст в Google Script
Я использовал этот код в течение некоторого времени в Google Script, и он перестал работать несколько недель назад. Пытаюсь восстановить код, но не получается. Сообщение об ошибке, которое я получаю: Исключение: непредвиденная ошибка при...
114 просмотров
schedule 01.01.2023

ImportError: Ошибка загрузки DLL при импорте pdftotext: указанный модуль не найден
Я установил установленный модуль pdftotext как conda install -c conda-forge poppler pip install pdftotext (я также пробовал pip install pdftotext==2.1.5 ), но он все еще вызывает ошибку, когда я пытаюсь его импортировать, несмотря на...
207 просмотров
schedule 03.06.2023