У меня есть именованный вектор символов, называемый y
, который выглядит примерно так:
D1 D2 D3 D4 D5
"X D X " "G U V " "F Q " "A C U E" "H I T "
Что я хотел бы сделать с этим вектором, так это создать как подсчет частоты букв, так и взвешивание IDF. Я попытался запустить этот код:
dd <- Corpus(VectorSource(y)) #Make a corpus object from a text vector
dtm <- DocumentTermMatrix(dd, control = list(weighting = weightTfIdf))
Однако, когда я запускаю этот код, я получаю сообщение об ошибке:
Warning message:
In weighting(x) : empty document(s): 1 2 3 4 5.
Во всех документах есть буквы или, по крайней мере, даже пробел (я также хочу включить их в подсчет). Я не уверен, что я делаю неправильно - мне удалось заставить этот пример работать - hand-calculation">Разные значения tf-idf в R и ручной расчет.
Используя мой пример выше, я хотел бы что-то вроде этого:
A C D E F G H I Q T U V X
0 0 1 0 0 0 0 0 0 0 0 0 2 - D1
0 0 0 0 0 1 0 0 0 0 1 1 0 - D2
...
Любая помощь будет оценена по достоинству!