Стратегия удаления общеупотребительных английских слов

Я хочу извлечь релевантные ключевые слова из html-страницы.

Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.

Но теперь у меня все еще есть много основных глаголов и местоимений, как наиболее часто используемых слов.

Есть ли какой-то метод или набор слов в Lucene, Snowball или где-либо еще, чтобы отфильтровать все эти вещи, такие как «я, это, иди, пошел, я, это, были, мы, ты, мы, ...."

Franz Kafka 23.09.2011 источник

Ответы (3)

arrow_upward
2
arrow_downward

Это кажется довольно простым применением обратной частоты документа. Если бы у вас был хотя бы небольшой корпус из, скажем, 10 000 веб-страниц, вы могли бы вычислить вероятность появления каждого слова в документе. Затем выберите порог, при котором, по вашему мнению, слова начинают становиться интересными или содержательными, и исключите слова до этого порога.

С другой стороны, этот список выглядит хорошо. http://www.lextek.com/manuals/onix/stopwords1.html

Rob Neuhaus 23.09.2011

arrow_upward
4
arrow_downward

Вы ищете термин «стоп-слова». Для Lucene это встроено, и вы можете добавить их в StopWordAnalyzer.java (см. http://ankitjain.info/ankit/2009/05/27/lucene-search-ignore-word-list/)

nflacco 23.09.2011

arrow_upward
1
arrow_downward

Пакет tm для R предоставляет интерфейс через R для многих распространенных задач НЛП и имеет интерфейс к Weka. Возможно, стоит проверить. Документация находится здесь

При более внимательном рассмотрении вашего вопроса вы, вероятно, ищете функцию removeStopWords() в пакете tm.

richiemorrisroe 23.09.2011

Стратегия удаления общеупотребительных английских слов

Ответы (3)

Похожие вопросы