Вопросы по теме 'html-content-extraction'
Извлечение текста из HTML Java
Я работаю над программой, которая загружает HTML-страницы, а затем выбирает часть информации и записывает ее в другой файл.
Я хочу извлечь информацию, которая находится между тегами абзаца, но я могу получить только одну строку абзаца. Мой код...
48044 просмотров
schedule
23.10.2023
Можно разобрать HTML-документ и построить DOM-дерево (java)
Возможно ли и какие инструменты можно использовать для анализа html-документа в виде строки или из файла, а затем для построения дерева DOM, чтобы разработчик мог пройти по дереву через какой-либо API.
Например:
DomRoot = parse("myhtml.html");...
4653 просмотров
schedule
05.02.2022
Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome
Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д.
Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не...
1939 просмотров
schedule
02.07.2022
Как извлечь HTML-контент с помощью Regex в PHP
Я знаю, я знаю... регулярное выражение - не лучший способ извлечь HTML-текст. Но мне нужно извлечь текст статьи из большого количества страниц, я могу хранить регулярные выражения в базе данных для каждого сайта. Я не уверен, как синтаксические...
1824 просмотров
schedule
25.11.2022
Как я могу получить содержимое URL-запроса в строку в java flash-actionscript
Как я могу получить содержимое запрошенного URL-адреса, который возвращает html-страницу, переданную в строку, с помощью java in flash actionscript. ?! У меня есть это на данный момент
var req:URLRequest = new...
323 просмотров
schedule
26.10.2022
найти все ссылки с регулярным выражением в python
У меня есть текст, полный адреса ссылки со стилем
href=\'http://address.com\'
Я использую re.findall('"((http)s?://.*?)"', srcCode) в Python 3.4 для извлечения всех ссылок, но не работает. Как я могу это исправить?
1497 просмотров
schedule
14.05.2022
Невозможно отобразить данные содержимого Json html в текстовом представлении в Android
Прямо сейчас я пытаюсь отображать изображения и тексты из одного html-контента в текстовом представлении в Android. На самом деле я получаю это содержимое html из json, но с помощью приведенного ниже кода я могу отображать только доступные тексты,...
1727 просмотров
schedule
28.06.2022
RCurl getURLContent определяет тип контента через окончательное перенаправление
Это дополнительный вопрос к RCurl getURL с циклом - ссылка в PDF убивает зацикливание :
У меня есть следующая команда getURL :
require(RCurl)
#set a bunch of options for curl
options(RCurlOptions = list(cainfo = system.file("CurlSSL",...
1090 просмотров
schedule
27.05.2023
Извлечение основного содержания статьи (JavaScript)
Я пишу программу, которая читает общую HTML-страницу «статьи» (Wikipedia, NY Times, Yahoo News и т. д.). С этой страницы я хочу убрать весь «шум» (рекламу, заголовки... все, что не является частью содержания статьи). Если подумать, я хочу сохранить...
1478 просмотров
schedule
15.02.2023