Стратегия удаления общеупотребительных английских слов

Я хочу извлечь релевантные ключевые слова из html-страницы.

Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.

Но теперь у меня все еще есть много основных глаголов и местоимений, как наиболее часто используемых слов.

Есть ли какой-то метод или набор слов в Lucene, Snowball или где-либо еще, чтобы отфильтровать все эти вещи, такие как «я, это, иди, пошел, я, это, были, мы, ты, мы, ...."


person Franz Kafka    schedule 23.09.2011    source источник


Ответы (3)


Это кажется довольно простым применением обратной частоты документа. Если бы у вас был хотя бы небольшой корпус из, скажем, 10 000 веб-страниц, вы могли бы вычислить вероятность появления каждого слова в документе. Затем выберите порог, при котором, по вашему мнению, слова начинают становиться интересными или содержательными, и исключите слова до этого порога.

С другой стороны, этот список выглядит хорошо. http://www.lextek.com/manuals/onix/stopwords1.html

person Rob Neuhaus    schedule 23.09.2011

Вы ищете термин «стоп-слова». Для Lucene это встроено, и вы можете добавить их в StopWordAnalyzer.java (см. http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)

person nflacco    schedule 23.09.2011

Пакет tm для R предоставляет интерфейс через R для многих распространенных задач НЛП и имеет интерфейс к Weka. Возможно, стоит проверить. Документация находится здесь

При более внимательном рассмотрении вашего вопроса вы, вероятно, ищете функцию removeStopWords() в пакете tm.

person richiemorrisroe    schedule 23.09.2011