Вопросы по теме 'pdf-extraction'

экспортировать файл pdf из PowerPoint с помощью vba
Я хочу иметь возможность экспортировать файлы PDF, которые я вставляю в свою презентацию PowerPoint, с помощью vba. Я знаю, что вы можете добавить расширение .zip к файлу pptx (просто изменив имя файла), а затем проверить содержимое презентации....
289 просмотров
schedule 06.06.2024

Как автоматически экспортировать поля формы pdf в xml
У меня есть файл pdf , включающий поля формы, и мне нужно экспортировать данные в файл xml АВТОМАТИЧЕСКИ . Вот экран образца формы, который я создал для тестирования: Примечание. Он отлично работает, экспортируя его ВРУЧНУЮ с помощью...
23007 просмотров
schedule 03.06.2024

python - вытащить pdf-файлы с веб-страницы и преобразовать в html
Моя цель состоит в том, чтобы иметь скрипт python, который будет получать доступ к определенным веб-страницам, извлекать все файлы PDF на каждой странице, в имени файла которых есть определенное слово, преобразовывать их в html/xml, а затем...
2132 просмотров
schedule 04.11.2023

Извлечение текста из вложения электронной почты в формате PDF без предварительного сохранения вложения в файл PDF
Я использую PDF Extractor ( здесь ), чтобы получить текст из вложений PDF в сообщениях электронной почты. Мне кажется, что единственный способ извлечь текст - это сохранить PDF-файл в файл, а затем использовать код. Private Function...
581 просмотров
schedule 19.12.2023

Как извлечь текст под определенными заголовками из PDF?
Я хочу извлечь текст под определенными заголовками из pdf с помощью python. Например, у меня есть pdf с заголовками Introduction,Summary,Contents. Мне нужно извлечь только текст под заголовком «Сводка». Как я могу это сделать?
6211 просмотров

Извлечение таблицы .pdf
Я написал фрагмент кода для получения интересующей меня таблицы .pdf в R , но должен быть способ получше. Следовательно, у меня нет проблем с импортом данных из pdf. Я ищу ЛУЧШИЙ способ, чем следующий, для извлечения интересующих меня таблиц....
227 просмотров
schedule 18.11.2023

Как я могу распечатать таблицы в файле .pdf с помощью Python
CalledProcessError: команда '[' java ',' -Dfile.encoding = UTF8 ',' -jar ',' C: \ Users \ vijv2c13136 \ AppData \ Local \ Continuum \ anaconda2 \ lib \ site-packages \ tabula \ tabula-1.0 .2-jar-with-dependencies.jar ',' --pages ',' all ','...
2612 просмотров
schedule 11.12.2022

Удалить пробелы из PDF-документа
Я использую Camelot-py для чтения и извлечения атрибутов из нескольких PDF-файлов. Я использую table_areas для извлечения некоторых атрибутов, и я столкнулся с трудностями при установке правильных областей из-за отклонения в координатах X или Y между...
1622 просмотров

PDF в текст в Python, возвращающий пустые результаты в файлах изображений
У меня есть этот файл в формате PDF . PDF-файл с низким разрешением на основе изображения. Я пытаюсь извлечь из него данные, и все варианты, которые я пробовал, не работают. Вариант 1 — использование pdfminer from pdfminer.pdfinterp import...
189 просмотров
schedule 16.12.2023