Я просматриваю новостные веб-сайты и хочу извлечь заголовок новости, аннотацию новости (первый абзац) и т. Д.
Я подключился к коду парсера webkit, чтобы легко перемещаться по веб-странице в виде дерева. Чтобы исключить навигацию и другой не новостной контент, я беру текстовую версию статьи (без тегов html, webkit предоставляет для них API). Затем я запускаю алгоритм сравнения, сравнивая различные тексты статей с одного и того же веб-сайта, что приводит к удалению похожего текста. Это дает мне контент за вычетом обычного навигационного контента и т. Д.
Несмотря на вышеупомянутый подход, я все еще получаю довольно много мусора в моем окончательном тексте. Это приводит к извлечению некорректного аннотации новостей. Частота ошибок составляет 5 из 10 статей, т. Е. 50%. Ошибка как в
Не могли бы вы
Предложите альтернативную стратегию извлечения чистого содержимого,
Может ли изучение обработки естественного языка помочь в извлечении правильных отрывков из этих статей?
Как бы вы подошли к вышеуказанной проблеме?
Это какие-нибудь исследования об одном и том же?
С Уважением
Анкур Гупта