Вопросы по теме 'html-parsing'

Проблема с парсером HTML в IE
Я пытаюсь создать диалоговое окно, которое будет отображаться только в том случае, если выбран браузер IE (любая версия), однако я получаю эту ошибку: Сообщение: Ошибка синтаксического анализа HTML: невозможно изменить родительский элемент...
75285 просмотров
schedule 11.03.2022

Анализировать HTML-страницу на предмет ссылок с помощью Regex с помощью Perl
Возможный дубликат: Как удалить внешние ссылки из HTML с помощью Perl? Хорошо, я сейчас работаю для клиента, который только что переключил свой язык на Perl. Я не лучший в Perl, но я делал с ним подобные вещи раньше, хотя и довольно...
2240 просмотров
schedule 05.06.2022

Перебрать элементы ‹div› с помощью PHP
У меня есть блок html в строке, которая в основном представляет собой список div... Каждый div имеет html внутри, который я хочу анализировать отдельно. У меня возникли проблемы с выяснением того, как именно перебрать начальные элементы div....
5555 просмотров
schedule 19.05.2023

Как заставить BeautifulSoup анализировать содержимое тегов textarea как HTML?
До версии 3.0.5 BeautifulSoup обрабатывал содержимое ‹textarea> как HTML. Теперь он воспринимает это как текст. В документе, который я разбираю, есть HTML внутри тегов textarea, и я пытаюсь его обработать. Я пробовал: for textarea in...
4531 просмотров
schedule 13.05.2022

Как вы разбираете и обрабатываете HTML / XML в PHP?
Как можно разобрать HTML / XML и извлечь из него информацию?
440153 просмотров
schedule 11.04.2022

Обработка HTML-кода
Я хочу обработать некоторый HTML-код и удалить теги, как в примере: «‹p›‹b›Это‹/b› — очень интересный абзац. ‹/p›» приводит к «Это очень интересный абзац». Я использую Python как технологию; Знаете ли вы какую-либо структуру, которую я могу...
925 просмотров
schedule 28.10.2023

удалить теги комментариев html, используя регулярное выражение
This is how my text (html) file looks like <!-- | | | This is a dummy comment | | please delete me | | asap | |...
8200 просмотров
schedule 22.10.2023

Получить входной текст из HTML после синтаксического анализа
Я новичок в PHP и DOMDocument, у меня есть пара сомнений 1) .. <input type ="text" name ='name'> .. <input type = "text" name='password'> Позже на сервере я хотел бы проанализировать этот php-документ перед его интерпретацией....
251 просмотров
schedule 24.06.2022

парсинг rss с использованием тегов формата dom, html
Мне нужно разобрать RSS-канал и отобразить его в Android. я использую анализатор DOM. я могу разобрать весь тег, кроме тега с тегами форматирования html. Например <description> <p><span style="font-family: arial, geneva,...
986 просмотров
schedule 12.02.2024

загрузить полную веб-страницу, включая ресурсы (например, изображения) в java
есть ли способ загрузить (html) веб-страницу и все ее ресурсы (например, изображения, CSS). Я знаю, как это сделать с помощью синтаксического анализатора html, просматривая все соответствующие теги, но нет ли простого способа ?
8892 просмотров
schedule 15.04.2023

Разбор HTML в Java
В основном, если у меня есть строка, которая выглядит так: %22Hello+World+%26+Hello+World%22 потому что я взял его из HTML, как мне заставить Java сказать «Hello World» и «Hello World», то есть заменить фрагменты HTML текстом? Спасибо
288 просмотров
schedule 07.06.2023

Как вставить строку php-кода в html-файл, используя SimpleHtmlDOM
Я пытаюсь вставить THE PHP CODE между <div id="container"> PHP-КОДОМ ЗДЕСЬ </div> . Я использую http://simplehtmldom.sourceforge.net/ в этом HTML-парсере Php. У меня есть это до сих пор, как найти div с идентификатором,...
467 просмотров
schedule 31.01.2023

игнорировать искаженный XML с помощью Perl-XML
Я использую утилиту командной строки perl xpath для извлечения данных из некоторого HTML-кода следующим образом: #!/bin/bash echo $HTML | xpath -q -e "//h2[1]" HTML искажен, из-за чего xpath выдает следующую ошибку: not well-formed...
1609 просмотров
schedule 04.04.2023

Измените определенные слова на ссылки в HTML с помощью PHP
Возможный дубликат: Как заменить текстовые URL-адреса и исключить URL-адреса в тегах HTML? Учитывая некоторую разметку HTML, я хочу добавить ссылки вокруг определенных слов в тексте. Но я не хочу влиять на атрибуты или невидимые слова....
262 просмотров
schedule 07.04.2022

Использование BeautifulSoup для извлечения текста между разрывами строк (например, теги ‹br /›)
У меня есть следующий HTML-код, который находится в более крупном документе <br /> Important Text 1 <br /> <br /> Not Important Text <br /> Important Text 2 <br /> Important Text 3 <br /> <br /> Non...
35483 просмотров
schedule 17.05.2022

YouTube HTML Agility Pack C #
Я пытаюсь получить все идентификаторы видео со страницы результатов поиска YouTube. У каждого результата есть этот код: <a href="/watch?v=aYIC-ebAD3o" class="ux-thumb-wrap result-item-thumb"> <span class="video-thumb ux-thumb-128...
2636 просмотров
schedule 20.03.2023

Как читать HTML как XML?
Я хочу извлечь пару ссылок из html-страницы, загруженной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая. Моя проблема в том, что я не могу создать XmlDocument из HTML. , использование Load(string url)...
59957 просмотров
schedule 27.03.2024

регулярное выражение для анализа тега заголовка html
Мне нужно проанализировать множество html-файлов, чтобы узнать, какие из них содержат определенный текст в теге заголовка. Предположим, что заголовки file1.htm <title>100 text other text</title> file2.htm <title>text 100 text...
3176 просмотров
schedule 13.04.2022

Парсер HTML для получения сообщений в блоге
Мне нужно создать синтаксический анализатор html, который с учетом URL-адреса блога возвращает список со всеми сообщениями на странице. т.е. если на странице 10 сообщений, она должна вернуть список из 10 элементов div, где каждый элемент div...
733 просмотров
schedule 11.11.2022

Удалить атрибуты с помощью HtmlAgilityPack
Я пытаюсь создать фрагмент кода для удаления всех атрибутов style независимо от тега с помощью HtmlAgilityPack . Вот мой код: var elements = htmlDoc.DocumentNode.SelectNodes("//*"); if (elements!=null) { foreach (var element in...
15522 просмотров
schedule 23.04.2023