Вопросы по теме 'pdfminer'

Как использовать pdfminer в качестве библиотеки
Я пытаюсь получить текстовые данные из PDF-файла с помощью pdfminer . Я могу успешно извлечь эти данные в файл .txt с помощью инструмента командной строки pdf2txt.py. В настоящее время я делаю это, а затем использую скрипт Python для очистки файла...
80874 просмотров
schedule 04.02.2022

python - вытащить pdf-файлы с веб-страницы и преобразовать в html
Моя цель состоит в том, чтобы иметь скрипт python, который будет получать доступ к определенным веб-страницам, извлекать все файлы PDF на каждой странице, в имени файла которых есть определенное слово, преобразовывать их в html/xml, а затем...
2132 просмотров
schedule 04.11.2023

Извлечение гиперссылок из PDF в Python
У меня есть PDF-документ с несколькими гиперссылками, и мне нужно извлечь весь текст из PDF-файла. Я использовал библиотеку PDFMiner и код с http://www.endlesscurious.com/2012/06/13/scraping-pdf-with-python/ для извлечения текста. Однако он не...
11482 просмотров
schedule 24.03.2022

Читать pdf страницу за страницей
Я искал свой вопрос и не получил ответа на два доступных вопроса Извлечь текст на странице с помощью Python pdfMiner? PDFMiner — перебор страниц и преобразование их в текст По сути, я хочу перебирать каждую страницу, потому что...
8998 просмотров
schedule 17.03.2023

Работа с отдельными страницами с помощью PDFMiner
У меня есть несколько PDF-документов, из которых я не могу извлечь текст с помощью PyPDF, только с помощью PDFMiner. Следующий код отлично работает для извлечения всего текста из PDF-файлов, он проходит через весь документ, а затем возвращает весь...
1608 просмотров

pdfminer - ошибка импорта
Я новичок в Python и программировании в целом. Я пытаюсь установить pdfMiner. У меня Windows 7 с установленным Python 2.7. Я следовал инструкциям при установке (скачал исходный код PDFMiner, распаковал его и запустил setup.py для установки, и...
2666 просмотров
schedule 25.02.2024

Преобразование pdf-документа, который включает таблицы в файл csv, с использованием python или любого другого языка
Я попытался преобразовать документ pdf (включая таблицы) в файл csv. К сожалению, я потерпел неудачу. Я использовал следующие подходы: Используемый pdfminer сначала преобразовал pdf в текст, но структура текстового файла не такая, как у...
771 просмотров
schedule 18.01.2022

Python — извлечение текста из веб-страницы PDF
Итак, я наткнулся на несколько сообщений, посвященных преобразованию PDF-файлов в HTML или преобразованию их в текст, однако все они касаются этого из файла, сохраненного на компьютере. Есть ли способ извлечь текст из PDF-страницы веб-страницы без...
6212 просмотров
schedule 25.11.2023

Решение для извлечения табличных данных из файла PDF (вроде)
Мне нужно было извлечь табличные данные на большом количестве страниц из многих PDF-документов. Использование встроенной возможности экспорта текста из Adobe Acrobat Reader было бесполезным - текст, извлеченный таким образом, теряет пространственные...
3852 просмотров
schedule 15.01.2023

Python — PDFMiner (ошибка — модуль PDFdocument отсутствует)
Столкнувшись с приведенной ниже ошибкой, когда я пытаюсь выполнить пример кода, приведенный в разделе «Основное использование Link : Traceback (most recent call last): File "J:/TestPy/Test/readPDF.py", line 2, in <module> from...
483 просмотров
schedule 03.09.2022

Ошибка: невозможно импортировать имя PDFDocument из pdfminer.pdfparser
Мне нужно извлечь текст из pdf-файлов, и я успешно использовал pdfminer.six, извлекая как текстовые абзацы, так и таблицы. Но теперь я получаю ошибку, связанную со строкой from pdfminer.pdfparser import PDFParser, PDFDocument: ImportError:...
8028 просмотров
schedule 28.06.2022

Как разобрать PDF с помощью символов Adobe CID
сообщество. Я пытался разобрать PDF-документ с помощью нескольких инструментов. Например, pdfminer для Python, pdf-parse для Node.js, но ни один из них не может анализировать пространственные символы Adobe CID, и я получаю следующую...
346 просмотров
schedule 28.06.2023

Я пытаюсь извлечь данные в виде элементов HTML в python, используя pdfminer.
Я пытаюсь извлечь данные в виде HTML из pdf с помощью pdfminer, хотя мне удалось извлечь текст из того же pdf, теперь я получаю сообщение об ошибке при извлечении данных в формате HTML. Мне нужно дополнительно отфильтровать данные, чтобы...
505 просмотров

Извлечение только определенного текста из PDF с помощью Python
Необходимо извлечь конкретный текст только из PDF-файла счета-фактуры, имеющего другую структуру PDF, с использованием python и сохранить выходные данные в определенных столбцах Excel. Все файлы PDF имеют разную структуру, но одинаковые значения...
526 просмотров
schedule 22.07.2023

PDF в текст в Python, возвращающий пустые результаты в файлах изображений
У меня есть этот файл в формате PDF . PDF-файл с низким разрешением на основе изображения. Я пытаюсь извлечь из него данные, и все варианты, которые я пробовал, не работают. Вариант 1 — использование pdfminer from pdfminer.pdfinterp import...
189 просмотров
schedule 16.12.2023