Мой вопрос является продолжением этого.
После очистки моих текстовых данных и визуализации их с помощью wordcloud
я хочу увидеть, какие слова коррелируют друг с другом. Вот проблема:
quanteda
имеет функциюtextstat_simil
, но написано подобие. Итак, одно и то же в данном случае «сходство» и «корреляция»? (Связано ли это с расстоянием?).Более того, мой dfm выглядит как бинарная матрица. Является ли в этом случае фи-корреляция (из статистики хи-квадрата) более выраженной? Могу ли я рассчитать это через
quanteda
?- У вас, ребята, есть какой-либо другой контент, кроме исходного кода github, который более подробно объясняет методы вычисления показателей сходства или расстояния? (я не понял из этого кода, извините) .
Спасибо за терпение!