Я пишу программу, которая читает общую HTML-страницу «статьи» (Wikipedia, NY Times, Yahoo News и т. д.). С этой страницы я хочу убрать весь «шум» (рекламу, заголовки... все, что не является частью содержания статьи). Если подумать, я хочу сохранить самое важное. (Основное содержание, Название, автор)
Я пытаюсь придумать умный способ найти основное содержание статьи. У меня есть несколько идей, но они не совсем то, что мне нужно. Я не хочу анализировать каждый узел в DOM. Моя текущая идея заключается в использовании размера элементов.
Любые идеи приветствуются. По сути, это вопрос дизайна.
Спасибо.
<main>
и<article>
HTML5. Дополнительная информация: diveintohtml5.info/semantics.html - person johnnyRose   schedule 29.05.2015