Вопросы по теме 'text-extraction'

Какой хороший способ извлечения текста из PDF с помощью C# или классического ASP (VBScript)?
Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если мне придется. Что-то, что работает с C# или классическим ASP (VBScript), было бы идеальным, и мне также нужно иметь возможность отделять страницы от PDF. В...
9359 просмотров
schedule 18.01.2023

Извлечение текста из HTML Java
Я работаю над программой, которая загружает HTML-страницы, а затем выбирает часть информации и записывает ее в другой файл. Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код...
48044 просмотров

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome
Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д. Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не...
1939 просмотров

Как извлечь теги заголовков в PHP из строки?
Как из строки, содержащей много HTML, извлечь весь текст из тегов <h1><h2>etc в новую переменную? Я хотел бы захватить весь текст из этих элементов и сохранить их в новой переменной как значения, разделенные запятыми. Возможно ли...
14113 просмотров
schedule 13.02.2022

Извлечь строки в python
По сути, я хочу извлечь строки «AAA», «BBB», «CCC», «DDD» из текстового файла... ...... (other text goes here)..... <TD align="left" class=texttd><font class='textfont'>AAA</font></TD> ..... (useless text here)..... <TD...
541 просмотров
schedule 29.11.2023

Извлечение демографической и контактной информации из неструктурированных текстовых файлов
Я хочу извлечь определенные элементы из большого пула неструктурированных документов. Эти документы могут состоять из 1-5 страниц текста, отформатированного пользователем по-разному, но в большинстве случаев содержат как минимум: Имя Адрес...
451 просмотров

Извлечение текста PDF на основе правил для достоверных счетов и накладных
Мне нужно извлечь текст из PDF-файлов счетов и счетов Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами. Я уже прочитал несколько десятков статей о формате pdf, о том, как легко нашему мозгу понять его и как сложно...
12559 просмотров
schedule 28.02.2022

Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?
Я использую Tesseract, но я не знаю, игнорирует ли он какую-либо нетекстовую область и ориентируется только на текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?
2636 просмотров

Последняя строка текста обрезается при извлечении текста из PDF с помощью MuPDF
Я использую MuPDF для извлечения текста из файла PDF. В большинстве случаев он работает нормально, но иногда последняя строка либо не извлекается, либо не печатается. fz_text_sheet *sheet = fz_new_text_sheet(self.ctx); fz_text_page *text =...
626 просмотров
schedule 17.10.2023

PDFBox - гарантируется ли порядок чтения с помощью processTextPosition PDFTextStripper?
Я использую PdfTextStripper (PDFBox 1.8.2) для обработки каждого TextPosition в файле PDF. Я протестировал множество файлов и заметил, что он обрабатывает текст в порядке чтения. Однако это не работает, если в pdf есть нижние колонтитулы (docx,...
2054 просмотров
schedule 19.03.2023

Простая команда «копировать форму»
Мне нужна команда, которая копирует форму в кольцо уничтожения. В emacs-live самое близкое, что я смог найти, это эта команда/привязка клавиш (global-set-key (kbd "M-]") 'kill-ring-save) Однако kill-ring-save ведет себя несколько шатко....
183 просмотров
schedule 27.07.2023

выполнить gsub во фрейме данных с 2 столбцами
У меня есть набор данных с двумя столбцами, я хотел бы очистить свой набор данных с помощью gsub, например Data_edited_txt2 <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", Data_edited_txt2$text) Data_edited_txt2 <- gsub("@\\w+", " ",...
319 просмотров
schedule 10.07.2022

Извлечь цену соответствующего продукта на веб-странице
Я работаю над веб-скребком. Я искал название продукта на веб-странице с моим продуктом. Если такой же продукт существует на странице, я хочу извлечь цену этого продукта. для этого я использую XPath вот мой html-код, из которого мне нужно извлечь...
527 просмотров
schedule 02.02.2024

Могу ли я разделить большой массив памяти между процессами PHP?
Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы). Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив,...
177 просмотров
schedule 23.08.2023

Извлечь определенные числа из строки в R
У меня есть этот пример: > exemplo V1 V2 local::/raiz/diretorio/adminadmin/ 1 local::/raiz/diretorio/jatai_p_user/ 2 local::/raiz/diretorio/adminteste/ 3 local::/raiz/diretorio/adminteste2/ 4 local::/raiz/diretorio/48808032191/...
59 просмотров
schedule 17.11.2023

Извлечение данных из формы Word
Используя С#, мне нужно извлечь данные из документа Word. У меня в проекте установлен NetOffice for word. Данные состоят из двух частей. Во-первых, мне нужно вытащить данные из настроек документа. Во-вторых, мне нужно вытащить содержимое...
1496 просмотров
schedule 26.09.2022

PHP-фильтр FlateDecode PDF-поток, возвращающий символы смещения
У меня есть код, который извлекает текст из PDF-файла с помощью класса filetotext. Работал до прошлой недели, когда что-то изменилось в генерируемом pdf. Странно то, что кажется, что символы есть и правильные, как только я добавляю 29 к порядку...
1361 просмотров

Извлечь слово из строки, содержащей определенный символ в подстроке
В MS Excel я хотел бы использовать формулу для извлечения только слова из ячейки, содержащей определенный символ ("=") в тексте. A2: Долли приготовила мне домашний торт = торт и кексы. A3: у нас был чиз=торт на ужин A4: Всем нравится, как...
4142 просмотров

Работа с отдельными страницами с помощью PDFMiner
У меня есть несколько PDF-документов, из которых я не могу извлечь текст с помощью PyPDF, только с помощью PDFMiner. Следующий код отлично работает для извлечения всего текста из PDF-файлов, он проходит через весь документ, а затем возвращает весь...
1608 просмотров

Извлечение строки SPSS
У меня есть столбец с именами разных лиц через запятую, например (все в 1 ячейке) Бен Ли, Пол Лой, Бой Лим. Я хочу разделить каждое имя на разные столбцы. Как я это сделаю? (в синтаксисе SPSS).
735 просмотров
schedule 19.07.2022