Вопросы по теме 'pdf-extraction'
экспортировать файл pdf из PowerPoint с помощью vba
Я хочу иметь возможность экспортировать файлы PDF, которые я вставляю в свою презентацию PowerPoint, с помощью vba.
Я знаю, что вы можете добавить расширение .zip к файлу pptx (просто изменив имя файла), а затем проверить содержимое презентации....
289 просмотров
schedule
06.06.2024
Как автоматически экспортировать поля формы pdf в xml
У меня есть файл pdf , включающий поля формы, и мне нужно экспортировать данные в файл xml АВТОМАТИЧЕСКИ . Вот экран образца формы, который я создал для тестирования:
Примечание. Он отлично работает, экспортируя его ВРУЧНУЮ с помощью...
23007 просмотров
schedule
03.06.2024
python - вытащить pdf-файлы с веб-страницы и преобразовать в html
Моя цель состоит в том, чтобы иметь скрипт python, который будет получать доступ к определенным веб-страницам, извлекать все файлы PDF на каждой странице, в имени файла которых есть определенное слово, преобразовывать их в html/xml, а затем...
2132 просмотров
schedule
04.11.2023
Извлечение текста из вложения электронной почты в формате PDF без предварительного сохранения вложения в файл PDF
Я использую PDF Extractor ( здесь ), чтобы получить текст из вложений PDF в сообщениях электронной почты.
Мне кажется, что единственный способ извлечь текст - это сохранить PDF-файл в файл, а затем использовать код.
Private Function...
581 просмотров
schedule
19.12.2023
Как извлечь текст под определенными заголовками из PDF?
Я хочу извлечь текст под определенными заголовками из pdf с помощью python.
Например, у меня есть pdf с заголовками Introduction,Summary,Contents. Мне нужно извлечь только текст под заголовком «Сводка».
Как я могу это сделать?
6211 просмотров
schedule
18.11.2023
Извлечение таблицы .pdf
Я написал фрагмент кода для получения интересующей меня таблицы .pdf в R , но должен быть способ получше. Следовательно, у меня нет проблем с импортом данных из pdf. Я ищу ЛУЧШИЙ способ, чем следующий, для извлечения интересующих меня таблиц....
227 просмотров
schedule
18.11.2023
Как я могу распечатать таблицы в файле .pdf с помощью Python
CalledProcessError: команда '[' java ',' -Dfile.encoding = UTF8 ',' -jar ',' C: \ Users \ vijv2c13136 \ AppData \ Local \ Continuum \ anaconda2 \ lib \ site-packages \ tabula \ tabula-1.0 .2-jar-with-dependencies.jar ',' --pages ',' all ','...
2612 просмотров
schedule
11.12.2022
Удалить пробелы из PDF-документа
Я использую Camelot-py для чтения и извлечения атрибутов из нескольких PDF-файлов. Я использую table_areas для извлечения некоторых атрибутов, и я столкнулся с трудностями при установке правильных областей из-за отклонения в координатах X или Y между...
1622 просмотров
schedule
20.10.2023
PDF в текст в Python, возвращающий пустые результаты в файлах изображений
У меня есть этот файл в формате PDF . PDF-файл с низким разрешением на основе изображения. Я пытаюсь извлечь из него данные, и все варианты, которые я пробовал, не работают.
Вариант 1 — использование pdfminer
from pdfminer.pdfinterp import...
189 просмотров
schedule
16.12.2023