Извлечение чистого содержимого / текста из HTML-страниц за счет исключения навигации и содержимого Chrome

Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д.

Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не новостной контент, я беру текстовую версию статьи (без тегов html, webkit предоставляет для них API). Затем я запускаю алгоритм сравнения, сравнивая различные тексты статей с одного и того же веб-сайта, что приводит к удалению похожего текста. Это дает мне контент за вычетом обычного навигационного контента и т. Д.

Несмотря на вышеупомянутый подход, я все еще получаю довольно много мусора в моем окончательном тексте. Это приводит к извлечению некорректного аннотации новостей. Частота ошибок составляет 5 из 10 статей, т. Е. 50%. Ошибка как в

Не могли бы вы

  1. Предложите альтернативную стратегию извлечения чистого содержимого,

  2. Может ли изучение обработки естественного языка помочь в извлечении правильных отрывков из этих статей?

  3. Как бы вы подошли к вышеуказанной проблеме?

  4. Это какие-нибудь исследования об одном и том же?

С Уважением

Анкур Гупта


person Ankur Gupta    schedule 08.11.2009    source источник
comment
Все страницы с одного сайта? Можете ли вы легко предсказать, что заголовок будет заключен в ‹div id = title› и тело новости будет выполнено в аналогичном стиле?   -  person Frankie    schedule 08.11.2009
comment
Набор страниц взят с одних и тех же сайтов, например, 300 страниц для сайта newyorktimes ... как на. Заголовок очень простой, так как заголовок страницы + строка, заключенная в ‹a› ‹/a›, похожи. Более того, размер шрифта заголовка, как правило, больше, чем размер всей страницы, и, по умолчанию, больше, чем размер нового тела содержимого.   -  person Ankur Gupta    schedule 08.11.2009
comment
Вы можете посмотреть тесты на реальных данных, например, из моего проекта trafilatura и его < href = "https://trafilatura.readthedocs.io/en/latest/evaluation.html" rel = "nofollow noreferrer"> страницу оценки. Чтобы увидеть, что лучше всего работает с вашими данными, вам придется самостоятельно протестировать различные программные решения на выборке данных. Недавний обзор исследовательских работ по этой теме см. В этом: Lejeune, G., & Zhu, L. (2018). Новое предложение по оценке очистки веб-страницы инструменты. Computación y Sistemas, 22 (4).   -  person adbar    schedule 30.01.2020


Ответы (3)


По вопросу (1) я не уверен. Раньше я этого не делал. Может быть, поможет один из других ответов.

Что касается вопроса (2), автоматическое создание рефератов не является развитой областью. Обычно это называют «отбором предложений», потому что сейчас типичный подход состоит в том, чтобы просто выбрать целые предложения.

Для вопроса (3) основной способ создания абстрактов на основе машинного обучения:

  1. Создать корпус существующих рефератов
  2. Добавляйте аннотации к тезисам в удобной форме. Например, вы, вероятно, захотите указать, было ли выбрано каждое предложение в оригинале и почему (или почему нет).
  3. Обучите какой-нибудь классификатор на корпусе, а затем используйте его для классификации предложений в новых статьях.

Моим любимым справочником по машинному обучению является Машинное обучение Тома Митчелла. >. В нем перечислены несколько способов реализации шага (3).

Что касается вопроса (4), я уверен, что есть несколько статей, потому что мой советник упомянул об этом в прошлом году, но я не знаю, с чего начать, поскольку я не эксперт в этой области.

person Nathan Shively-Sanders    schedule 09.11.2009
comment
Привет, Натан, Спасибо за ответ. Сп на вопрос 2). Нашел несколько соответствующих статей с использованием Google Scholar, и я думаю, что сейчас я в правильном направлении. Спасибо Анкур - person Ankur Gupta; 09.11.2009

Вы можете взглянуть на мой проект котел в Google Code и протестировать его на страницах по вашему выбору. используя живое веб-приложение в Google AppEngine (ссылка оттуда).

Я изучаю эту область и написал несколько статей об извлечении контента / удалении шаблонов со страниц HTML. См., Например, «Обнаружение шаблонов с использованием функций мелкого текста» и посмотрите соответствующее видео на VideoLectures.net. Документ должен дать вам хорошее представление о состоянии дел в этой области.

Ваше здоровье,

Христианин

person Christian Kohlschütter    schedule 21.11.2010

Я не знаю, как это работает, но проверьте читаемость. Он делает именно то, что вы хотели.

person Karthick    schedule 28.10.2010