быстрый вопрос:
Пакет анализа текста R Quanteda - findSequence дает следующий результат, и я не могу найти документацию по некоторым столбцам:
seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
sequence len z p mue
3 first time 2 -0.4159751 0.6612859 -165.7366
8 political parties 2 -0.4159751 0.6612859 -165.7366
9 preserve protect 2 -0.4159751 0.6612859 -165.7366
Может ли кто-нибудь помочь с определениями z, p и mue is p = вероятность? и если да, то как рассчитано. В справке говорится: «Этот алгоритм основан на« Неконтролируемом изучении многословных глаголов »Блахеты и Джонсона». но не предоставляет дополнительных сведений о компонентах вывода.
Вроде и интересная функция, но поможет дополнительная информация.
z
- это z-оценка,p
- вероятность получения этой оценки, аmue
- это среднее значение. Но может кто-нибудь еще сможет это проверить. - person Pierre L   schedule 14.09.2016sequences
. - person Ken Benoit   schedule 11.01.2017