У меня есть несколько вопросов о DocumentTermMatrix()
и о его запрещенных словах. Я набрал, как показано ниже, но не смог получить желаемых результатов.
text <- "text is my text but also his text."
mycorpus <- VCorpus(VectorSource(text))
mydtm <- DocumentTermMatrix(mycorpus, control=list(stopwords=F))
lapply(mycorpus, function(x){str_extract_all(x, boundary("word"))}) %>% unlist() %>% table()
.
also but his is my text
1 1 1 1 1 3
apply(mydtm, 2, sum)
also but his text text.
1 1 1 2 1
Во-первых, даже несмотря на то, что я использовал stopwords=F
, dtm все же удалил некоторые стоп-слова, такие как «есть». Однако он не удалил «его», хотя он указан как в stopwords("en")
, так и в stopwords("SMART")
. Так что я действительно не понимаю, какие стоп-слова использует DTM и почему stopwords=F
не работает. и что мне делать, чтобы он работал?