Вопросы по теме 'pdf-scraping'

Какой хороший способ извлечения текста из PDF с помощью C# или классического ASP (VBScript)?
Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если мне придется. Что-то, что работает с C# или классическим ASP (VBScript), было бы идеальным, и мне также нужно иметь возможность отделять страницы от PDF. В...
9359 просмотров
schedule 18.01.2023

iTextSharp PDF Чтение выделенного текста (выделение аннотаций) с использованием С#
Я разрабатываю приложение winform на С#, которое преобразует содержимое PDF в текст. Все необходимое содержимое извлекается, кроме содержимого, найденного в выделенном тексте PDF. Пожалуйста, помогите получить рабочий образец для извлечения...
1484 просмотров
schedule 02.11.2022

Распознать таблицу PDF с помощью R
Я пытаюсь извлечь данные из таблиц внутри некоторых отчетов в формате PDF. Я видел несколько примеров с использованием pdftools и подобных пакетов. Мне удалось получить текст, однако я просто хочу извлечь таблицы. Есть ли способ использовать R...
13371 просмотров
schedule 10.06.2022

Извлечение / очистка PDF с помощью Texttract — текст не печатается
Я пытаюсь извлечь текст из PDF-файлов doem с помощью Textract. Однако, когда я печатаю текст в конце кода, он просто печатает много пустых мест. Может ли кто-нибудь указать мне направление происходящего? (текст не = "", кстати) import os import...
738 просмотров
schedule 10.02.2023

обработка файлов + очистка слов (попытка найти в файле все слова, оканчивающиеся на «y»)
ОШИБКА: трассировка (последний последний вызов): Файл c:\Users\Pranjal\Desktop\tstp\zen_scraper.py, строка 5, словами = re.findall($y,file) Файл C:\Program Files\WindowsApps\...
24 просмотров