Вопросы по теме 'html-content-extraction'

Извлечение текста из HTML Java
Я работаю над программой, которая загружает HTML-страницы, а затем выбирает часть информации и записывает ее в другой файл. Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код...
48044 просмотров

Можно разобрать HTML-документ и построить DOM-дерево (java)
Возможно ли и какие инструменты можно использовать для анализа html-документа в виде строки или из файла, а затем для построения дерева DOM, чтобы разработчик мог пройти по дереву через какой-либо API. Например: DomRoot = parse("myhtml.html");...
4653 просмотров

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome
Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д. Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не...
1939 просмотров

Как извлечь HTML-контент с помощью Regex в PHP
Я знаю, я знаю... регулярное выражение - не лучший способ извлечь HTML-текст. Но мне нужно извлечь текст статьи из большого количества страниц, я могу хранить регулярные выражения в базе данных для каждого сайта. Я не уверен, как синтаксические...
1824 просмотров

Как я могу получить содержимое URL-запроса в строку в java flash-actionscript
Как я могу получить содержимое запрошенного URL-адреса, который возвращает html-страницу, переданную в строку, с помощью java in flash actionscript. ?! У меня есть это на данный момент var req:URLRequest = new...
323 просмотров

найти все ссылки с регулярным выражением в python
У меня есть текст, полный адреса ссылки со стилем href=\'http://address.com\' Я использую re.findall('"((http)s?://.*?)"', srcCode) в Python 3.4 для извлечения всех ссылок, но не работает. Как я могу это исправить?
1497 просмотров

Невозможно отобразить данные содержимого Json html в текстовом представлении в Android
Прямо сейчас я пытаюсь отображать изображения и тексты из одного html-контента в текстовом представлении в Android. На самом деле я получаю это содержимое html из json, но с помощью приведенного ниже кода я могу отображать только доступные тексты,...
1727 просмотров
schedule 28.06.2022

RCurl getURLContent определяет тип контента через окончательное перенаправление
Это дополнительный вопрос к RCurl getURL с циклом - ссылка в PDF убивает зацикливание : У меня есть следующая команда getURL : require(RCurl) #set a bunch of options for curl options(RCurlOptions = list(cainfo = system.file("CurlSSL",...
1090 просмотров
schedule 27.05.2023

Извлечение основного содержания статьи (JavaScript)
Я пишу программу, которая читает общую HTML-страницу «статьи» (Wikipedia, NY Times, Yahoo News и т. д.). С этой страницы я хочу убрать весь «шум» (рекламу, заголовки... все, что не является частью содержания статьи). Если подумать, я хочу сохранить...
1478 просмотров