Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д.

Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не новостной контент, я беру текстовую версию статьи (без тегов html, webkit предоставляет для них API). Затем я запускаю алгоритм сравнения, сравнивая различные тексты статей с одного и того же веб-сайта, что приводит к удалению похожего текста. Это дает мне контент за вычетом обычного навигационного контента и т. Д.

Несмотря на вышеупомянутый подход, я все еще получаю довольно много мусора в моем окончательном тексте. Это приводит к извлечению некорректного аннотации новостей. Частота ошибок составляет 5 из 10 статей, т. Е. 50%. Ошибка как в

Не могли бы вы

Предложите альтернативную стратегию извлечения чистого содержимого,
Может ли изучение обработки естественного языка помочь в извлечении правильных отрывков из этих статей?
Как бы вы подошли к вышеуказанной проблеме?
Это какие-нибудь исследования об одном и том же?

С Уважением

Анкур Гупта

Ankur Gupta 08.11.2009 источник

comment

Все страницы с одного сайта? Можете ли вы легко предсказать, что заголовок будет заключен в ‹div id = title› и тело новости будет выполнено в аналогичном стиле? - Frankie 08.11.2009

comment

Набор страниц взят с одних и тех же сайтов, например, 300 страниц для сайта newyorktimes ... как на. Заголовок очень простой, так как заголовок страницы + строка, заключенная в ‹a› ‹/a›, похожи. Более того, размер шрифта заголовка, как правило, больше, чем размер всей страницы, и, по умолчанию, больше, чем размер нового тела содержимого. - Ankur Gupta 08.11.2009

comment

Вы можете посмотреть тесты на реальных данных, например, из моего проекта trafilatura и его < href = "https://trafilatura.readthedocs.io/en/latest/evaluation.html" rel = "nofollow noreferrer"> страницу оценки. Чтобы увидеть, что лучше всего работает с вашими данными, вам придется самостоятельно протестировать различные программные решения на выборке данных. Недавний обзор исследовательских работ по этой теме см. В этом: Lejeune, G., & Zhu, L. (2018). Новое предложение по оценке очистки веб-страницы инструменты. Computación y Sistemas, 22 (4). - adbar 30.01.2020

Ответы (3)

arrow_upward
2
arrow_downward

По вопросу (1) я не уверен. Раньше я этого не делал. Может быть, поможет один из других ответов.

Что касается вопроса (2), автоматическое создание рефератов не является развитой областью. Обычно это называют «отбором предложений», потому что сейчас типичный подход состоит в том, чтобы просто выбрать целые предложения.

Для вопроса (3) основной способ создания абстрактов на основе машинного обучения:

Создать корпус существующих рефератов
Добавляйте аннотации к тезисам в удобной форме. Например, вы, вероятно, захотите указать, было ли выбрано каждое предложение в оригинале и почему (или почему нет).
Обучите какой-нибудь классификатор на корпусе, а затем используйте его для классификации предложений в новых статьях.

Моим любимым справочником по машинному обучению является Машинное обучение Тома Митчелла. >. В нем перечислены несколько способов реализации шага (3).

Что касается вопроса (4), я уверен, что есть несколько статей, потому что мой советник упомянул об этом в прошлом году, но я не знаю, с чего начать, поскольку я не эксперт в этой области.

Nathan Shively-Sanders 09.11.2009

comment

Привет, Натан, Спасибо за ответ. Сп на вопрос 2). Нашел несколько соответствующих статей с использованием Google Scholar, и я думаю, что сейчас я в правильном направлении. Спасибо Анкур - Ankur Gupta; 09.11.2009

arrow_upward
3
arrow_downward

Вы можете взглянуть на мой проект котел в Google Code и протестировать его на страницах по вашему выбору. используя живое веб-приложение в Google AppEngine (ссылка оттуда).

Я изучаю эту область и написал несколько статей об извлечении контента / удалении шаблонов со страниц HTML. См., Например, «Обнаружение шаблонов с использованием функций мелкого текста» и посмотрите соответствующее видео на VideoLectures.net. Документ должен дать вам хорошее представление о состоянии дел в этой области.

Ваше здоровье,

Христианин

Christian Kohlschütter 21.11.2010

arrow_upward
0
arrow_downward

Я не знаю, как это работает, но проверьте читаемость. Он делает именно то, что вы хотели.

Karthick 28.10.2010

Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Ответы (3)

Похожие вопросы