Я хочу извлечь релевантные ключевые слова из html-страницы.
Я уже удалил весь html-материал, разбил текст на слова, использовал стеммер и удалил все слова, появляющиеся в списке стоп-слов, из lucene.
Но теперь у меня все еще есть много основных глаголов и местоимений, как наиболее часто используемых слов.
Есть ли какой-то метод или набор слов в Lucene, Snowball или где-либо еще, чтобы отфильтровать все эти вещи, такие как «я, это, иди, пошел, я, это, были, мы, ты, мы, ...."