Вопросы по теме 'text-extraction'
Какой хороший способ извлечения текста из PDF с помощью C# или классического ASP (VBScript)?
Есть ли хорошая библиотека для извлечения текста из PDF? Я готов заплатить за это, если мне придется.
Что-то, что работает с C# или классическим ASP (VBScript), было бы идеальным, и мне также нужно иметь возможность отделять страницы от PDF.
В...
9359 просмотров
schedule
18.01.2023
Извлечение текста из HTML Java
Я работаю над программой, которая загружает HTML-страницы, а затем выбирает часть информации и записывает ее в другой файл.
Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код...
48044 просмотров
schedule
23.10.2023
Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome
Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д.
Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не...
1939 просмотров
schedule
02.07.2022
Как извлечь теги заголовков в PHP из строки?
Как из строки, содержащей много HTML, извлечь весь текст из тегов <h1><h2>etc в новую переменную?
Я хотел бы захватить весь текст из этих элементов и сохранить их в новой переменной как значения, разделенные запятыми.
Возможно ли...
14113 просмотров
schedule
13.02.2022
Извлечь строки в python
По сути, я хочу извлечь строки «AAA», «BBB», «CCC», «DDD» из текстового файла...
...... (other text goes here).....
<TD align="left" class=texttd><font class='textfont'>AAA</font></TD>
..... (useless text here).....
<TD...
541 просмотров
schedule
29.11.2023
Извлечение демографической и контактной информации из неструктурированных текстовых файлов
Я хочу извлечь определенные элементы из большого пула неструктурированных документов. Эти документы могут состоять из 1-5 страниц текста, отформатированного пользователем по-разному, но в большинстве случаев содержат как минимум:
Имя
Адрес...
451 просмотров
schedule
13.06.2022
Извлечение текста PDF на основе правил для достоверных счетов и накладных
Мне нужно извлечь текст из PDF-файлов счетов и счетов
Макеты файлов могут быть сложными, хотя в основном они заполнены таблицами.
Я уже прочитал несколько десятков статей о формате pdf, о том, как легко нашему мозгу понять его и как сложно...
12559 просмотров
schedule
28.02.2022
Пренебрегает ли Tesseract какой-либо нетекстовой областью в отсканированном документе?
Я использую Tesseract, но я не знаю, игнорирует ли он какую-либо нетекстовую область и ориентируется только на текст. Нужно ли удалять любую нетекстовую область в качестве шага предварительной обработки для лучшего вывода?
2636 просмотров
schedule
25.03.2024
Последняя строка текста обрезается при извлечении текста из PDF с помощью MuPDF
Я использую MuPDF для извлечения текста из файла PDF. В большинстве случаев он работает нормально, но иногда последняя строка либо не извлекается, либо не печатается.
fz_text_sheet *sheet = fz_new_text_sheet(self.ctx);
fz_text_page *text =...
626 просмотров
schedule
17.10.2023
PDFBox - гарантируется ли порядок чтения с помощью processTextPosition PDFTextStripper?
Я использую PdfTextStripper (PDFBox 1.8.2) для обработки каждого TextPosition в файле PDF. Я протестировал множество файлов и заметил, что он обрабатывает текст в порядке чтения. Однако это не работает, если в pdf есть нижние колонтитулы (docx,...
2054 просмотров
schedule
19.03.2023
Простая команда «копировать форму»
Мне нужна команда, которая копирует форму в кольцо уничтожения. В emacs-live самое близкое, что я смог найти, это эта команда/привязка клавиш
(global-set-key (kbd "M-]") 'kill-ring-save)
Однако kill-ring-save ведет себя несколько шатко....
183 просмотров
schedule
27.07.2023
выполнить gsub во фрейме данных с 2 столбцами
У меня есть набор данных с двумя столбцами, я хотел бы очистить свой набор данных с помощью gsub, например
Data_edited_txt2 <- gsub("(RT|via)((?:\\b\\W*@\\w+)+)", "", Data_edited_txt2$text)
Data_edited_txt2 <- gsub("@\\w+", " ",...
319 просмотров
schedule
10.07.2022
Извлечь цену соответствующего продукта на веб-странице
Я работаю над веб-скребком. Я искал название продукта на веб-странице с моим продуктом. Если такой же продукт существует на странице, я хочу извлечь цену этого продукта. для этого я использую XPath
вот мой html-код, из которого мне нужно извлечь...
527 просмотров
schedule
02.02.2024
Могу ли я разделить большой массив памяти между процессами PHP?
Я использую PHP для обработки большого количества данных (понимая, что я, вероятно, захожу на территории, где я должен использовать другие языки и/или методы).
Я делаю извлечение сущностей с помощью процесса PHP, который загружает массив,...
177 просмотров
schedule
23.08.2023
Извлечь определенные числа из строки в R
У меня есть этот пример:
> exemplo
V1 V2
local::/raiz/diretorio/adminadmin/ 1
local::/raiz/diretorio/jatai_p_user/ 2
local::/raiz/diretorio/adminteste/ 3
local::/raiz/diretorio/adminteste2/ 4
local::/raiz/diretorio/48808032191/...
59 просмотров
schedule
17.11.2023
Извлечение данных из формы Word
Используя С#, мне нужно извлечь данные из документа Word. У меня в проекте установлен NetOffice for word. Данные состоят из двух частей.
Во-первых, мне нужно вытащить данные из настроек документа.
Во-вторых, мне нужно вытащить содержимое...
1496 просмотров
schedule
26.09.2022
PHP-фильтр FlateDecode PDF-поток, возвращающий символы смещения
У меня есть код, который извлекает текст из PDF-файла с помощью класса filetotext. Работал до прошлой недели, когда что-то изменилось в генерируемом pdf. Странно то, что кажется, что символы есть и правильные, как только я добавляю 29 к порядку...
1361 просмотров
schedule
21.03.2023
Извлечь слово из строки, содержащей определенный символ в подстроке
В MS Excel я хотел бы использовать формулу для извлечения только слова из ячейки, содержащей определенный символ ("=") в тексте.
A2: Долли приготовила мне домашний торт = торт и кексы.
A3: у нас был чиз=торт на ужин
A4: Всем нравится, как...
4142 просмотров
schedule
09.06.2022
Работа с отдельными страницами с помощью PDFMiner
У меня есть несколько PDF-документов, из которых я не могу извлечь текст с помощью PyPDF, только с помощью PDFMiner. Следующий код отлично работает для извлечения всего текста из PDF-файлов, он проходит через весь документ, а затем возвращает весь...
1608 просмотров
schedule
15.06.2022
Извлечение строки SPSS
У меня есть столбец с именами разных лиц через запятую, например (все в 1 ячейке) Бен Ли, Пол Лой, Бой Лим. Я хочу разделить каждое имя на разные столбцы. Как я это сделаю? (в синтаксисе SPSS).
735 просмотров
schedule
19.07.2022