Вопросы по теме 'pdfminer'
Как использовать pdfminer в качестве библиотеки
Я пытаюсь получить текстовые данные из PDF-файла с помощью pdfminer . Я могу успешно извлечь эти данные в файл .txt с помощью инструмента командной строки pdf2txt.py. В настоящее время я делаю это, а затем использую скрипт Python для очистки файла...
80874 просмотров
schedule
04.02.2022
python - вытащить pdf-файлы с веб-страницы и преобразовать в html
Моя цель состоит в том, чтобы иметь скрипт python, который будет получать доступ к определенным веб-страницам, извлекать все файлы PDF на каждой странице, в имени файла которых есть определенное слово, преобразовывать их в html/xml, а затем...
2132 просмотров
schedule
04.11.2023
Извлечение гиперссылок из PDF в Python
У меня есть PDF-документ с несколькими гиперссылками, и мне нужно извлечь весь текст из PDF-файла. Я использовал библиотеку PDFMiner и код с http://www.endlesscurious.com/2012/06/13/scraping-pdf-with-python/ для извлечения текста. Однако он не...
11482 просмотров
schedule
24.03.2022
Читать pdf страницу за страницей
Я искал свой вопрос и не получил ответа на два доступных вопроса
Извлечь текст на странице с помощью Python pdfMiner?
PDFMiner — перебор страниц и преобразование их в текст
По сути, я хочу перебирать каждую страницу, потому что...
8998 просмотров
schedule
17.03.2023
Работа с отдельными страницами с помощью PDFMiner
У меня есть несколько PDF-документов, из которых я не могу извлечь текст с помощью PyPDF, только с помощью PDFMiner. Следующий код отлично работает для извлечения всего текста из PDF-файлов, он проходит через весь документ, а затем возвращает весь...
1608 просмотров
schedule
15.06.2022
pdfminer - ошибка импорта
Я новичок в Python и программировании в целом.
Я пытаюсь установить pdfMiner. У меня Windows 7 с установленным Python 2.7. Я следовал инструкциям при установке (скачал исходный код PDFMiner, распаковал его и запустил setup.py для установки, и...
2666 просмотров
schedule
25.02.2024
Преобразование pdf-документа, который включает таблицы в файл csv, с использованием python или любого другого языка
Я попытался преобразовать документ pdf (включая таблицы) в файл csv. К сожалению, я потерпел неудачу. Я использовал следующие подходы:
Используемый pdfminer сначала преобразовал pdf в текст, но структура текстового файла не такая, как у...
771 просмотров
schedule
18.01.2022
Python — извлечение текста из веб-страницы PDF
Итак, я наткнулся на несколько сообщений, посвященных преобразованию PDF-файлов в HTML или преобразованию их в текст, однако все они касаются этого из файла, сохраненного на компьютере. Есть ли способ извлечь текст из PDF-страницы веб-страницы без...
6212 просмотров
schedule
25.11.2023
Решение для извлечения табличных данных из файла PDF (вроде)
Мне нужно было извлечь табличные данные на большом количестве страниц из многих PDF-документов. Использование встроенной возможности экспорта текста из Adobe Acrobat Reader было бесполезным - текст, извлеченный таким образом, теряет пространственные...
3852 просмотров
schedule
15.01.2023
Python — PDFMiner (ошибка — модуль PDFdocument отсутствует)
Столкнувшись с приведенной ниже ошибкой, когда я пытаюсь выполнить пример кода, приведенный в разделе «Основное использование Link :
Traceback (most recent call last):
File "J:/TestPy/Test/readPDF.py", line 2, in <module>
from...
483 просмотров
schedule
03.09.2022
Ошибка: невозможно импортировать имя PDFDocument из pdfminer.pdfparser
Мне нужно извлечь текст из pdf-файлов, и я успешно использовал pdfminer.six, извлекая как текстовые абзацы, так и таблицы. Но теперь я получаю ошибку, связанную со строкой
from pdfminer.pdfparser import PDFParser, PDFDocument:
ImportError:...
8028 просмотров
schedule
28.06.2022
Как разобрать PDF с помощью символов Adobe CID
сообщество.
Я пытался разобрать PDF-документ с помощью нескольких инструментов. Например, pdfminer для Python, pdf-parse для Node.js, но ни один из них не может анализировать пространственные символы Adobe CID, и я получаю следующую...
346 просмотров
schedule
28.06.2023
Я пытаюсь извлечь данные в виде элементов HTML в python, используя pdfminer.
Я пытаюсь извлечь данные в виде HTML из pdf с помощью pdfminer, хотя мне удалось извлечь текст из того же pdf, теперь я получаю сообщение об ошибке при извлечении данных в формате HTML. Мне нужно дополнительно отфильтровать данные, чтобы...
505 просмотров
schedule
26.05.2023
Извлечение только определенного текста из PDF с помощью Python
Необходимо извлечь конкретный текст только из PDF-файла счета-фактуры, имеющего другую структуру PDF, с использованием python и сохранить выходные данные в определенных столбцах Excel. Все файлы PDF имеют разную структуру, но одинаковые значения...
526 просмотров
schedule
22.07.2023
PDF в текст в Python, возвращающий пустые результаты в файлах изображений
У меня есть этот файл в формате PDF . PDF-файл с низким разрешением на основе изображения. Я пытаюсь извлечь из него данные, и все варианты, которые я пробовал, не работают.
Вариант 1 — использование pdfminer
from pdfminer.pdfinterp import...
189 просмотров
schedule
16.12.2023