Определение вывода функции Quanteda findSequence - пакет R для анализа текста

быстрый вопрос:

Пакет анализа текста R Quanteda - findSequence дает следующий результат, и я не могу найти документацию по некоторым столбцам:

seqs <- findSequences(tokens, types_upper, count_min=2)
head(seqs, 3)
              sequence len          z         p       mue
     3         first time   2 -0.4159751 0.6612859 -165.7366
     8  political parties   2 -0.4159751 0.6612859 -165.7366
     9   preserve protect   2 -0.4159751 0.6612859 -165.7366

Может ли кто-нибудь помочь с определениями z, p и mue is p = вероятность? и если да, то как рассчитано. В справке говорится: «Этот алгоритм основан на« Неконтролируемом изучении многословных глаголов »Блахеты и Джонсона». но не предоставляет дополнительных сведений о компонентах вывода.

Вроде и интересная функция, но поможет дополнительная информация.


person ingrid    schedule 14.09.2016    source источник
comment
Это хороший вопрос, но здесь он может быть не лучшим. Я бы посоветовал перейти на перекрестную проверку. Они могут отправить его обратно, но может помочь кто-нибудь, знакомый с процессом.   -  person Pierre L    schedule 14.09.2016
comment
Судя по деталям функции, похоже, что z - это z-оценка, p - вероятность получения этой оценки, а mue - это среднее значение. Но может кто-нибудь еще сможет это проверить.   -  person Pierre L    schedule 14.09.2016
comment
спасибо Пьер - оценил!   -  person ingrid    schedule 16.09.2016
comment
Примечание. Это была экспериментальная функция, которая в v0.9.9 была переименована в sequences.   -  person Ken Benoit    schedule 11.01.2017


Ответы (1)


Посмотрев на код функции и затем проверив бумагу, z вычисляется на основе лямбда (логарифм отношения шансов) по сигме (асимптотическая стандартная ошибка). Это z-оценка, как прокомментировал Пьер, а p - вероятность 1 - stats::pnorm(z).

mue объясняется во втором абзаце раздела 2.3 книги Блахеты и Джонсона «Неконтролируемое изучение многословных глаголов». "µ = λ - 3,29σ .... Это соответствует установке мер µ и µ1 на нижнюю границу доверительного интервала 0,001 для λ ..., что является систематическим способом обмена отзывами на точность в условиях шума данные (Джонсон, 2001) ".

Если вы перейдете к разделу 2.3, вы увидите дополнительную информацию:

Мы предлагаем две различные меры ассоциации µ и µ1, которые ниже мы называем мерами «все поднаборы» и «поднаборы униграмм». Как мы объясним ниже, они, похоже, идентифицируют очень разные типы словосочетаний, поэтому оба они полезны в определенных обстоятельствах. Эти меры являются оценками λ и λ1 соответственно, которые являются частными параметрами некоторых логлинейных моделей. В случаях, когда счетчики малы, оценки λ и λ1 могут быть зашумленными, и поэтому высокие значения из небольших данных счета следует каким-то образом не принимать во внимание при сравнении со значениями из больших данных счета. Мы делаем это, также оценивая асимптотическую стандартную ошибку σ и σ1 для λ и λ1 соответственно, и полагаем µ = λ - 3.29σ и µ1 = λ1 - 3.29σ1. Это соответствует установке мер µ и µ1 на нижнюю границу доверительного интервала 0,001 для λ и λ1 соответственно, что является систематическим способом обмена отзыва на точность в условиях зашумленных данных (Johnson, 2001).

Подробности (и дополнительные ссылки), относящиеся к вычислению λ и σ, также находятся в разделе 2.3.

person Jota    schedule 15.09.2016