Вычисление p-значения из псевдо-F в R

Я работаю с очень большим набором данных со 132 019 наблюдениями 18 переменных. Я использовал пакет clusterSim для расчета статистики псевдо-F для кластеров, созданных с использованием Kohonen SOM. Я пытаюсь оценить различные размеры кластеров (например, 4, 6, 9 кластеров) с помощью значений p, но получаю странные результаты, и я недостаточно подкован в статистике, чтобы понять, что продолжается.

Я использую следующий код для получения псевдо-F.

library(clusterSim)
psF6 <- index.G1(yelpInfScale, cl = som.6$unit.classif)
psF6
[1] 48783.4

Затем я использую следующий код, чтобы получить p-значение. Когда я делаю lower.tail = T, я получаю 1, а когда я делаю lower.tail = F, я получаю 0.

k6 = 6
pf(q = psF6, df1 = k6 - 1, df2 = n - k6, lower.tail = FALSE)
[1] 0

Думаю, я ожидал не круглого числа, поэтому я не понимаю, как интерпретировать результаты. Я получаю одни и те же результаты независимо от того, какой размер кластера я оцениваю. Я где-то читал об изменении местами df1 и df2 в расчетах, но это кажется странным. Кроме того, справочный текст, который я использую («Интеллектуальный анализ данных и прогнозная аналитика» Larose), использует это для оценки кластеров k-средних, поэтому мне интересно, проблема в том, что я использую кластеры Кохонена.


person ldlpdx    schedule 08.11.2015    source источник


Ответы (1)


Я бы проверил ваши данные, но не невозможно получить значение p как 0 или 1. В вашем случае, если вы правильно получили свои данные, это указывает на то, что ваши данные сильно искажены, а созданные вами кластеры идеальная посадка. Поэтому, когда вы выполняете lower.tail = FALSE, p-значение, равное нулю, указывает на то, что ваша выборка классифицируется со 100% точностью и вероятность ошибки исключена. Lower.tail = TRUE дает 1, что указывает на то, что вы кластеризуетесь очень близко друг к другу. Другими словами, ваши наблюдения сгруппированы далеко друг от друга, чтобы иметь 0 на двухстороннем тесте, но центральные точки кластеров достаточно близки, чтобы дать значение p, равное 1, в одностороннем тесте. На вашем месте я бы попробовал вариант «K-средних с разделением» с другим параметром расстояния «w», чтобы увидеть, как данные подходят. ЕСЛИ для некоторого «w» это соответствует очень низким значениям p для кластеров, я не думаю, что такая сложная модель, как SOM, действительно необходима.

person Gaurav    schedule 09.11.2015
comment
Спасибо большое! Очень ценю вашу оценку. - person ldlpdx; 09.11.2015
comment
@LesleyLathrop примите ответ, если сочтете его полезным... см. здесь, как принять...meta.stackoverflow.com/questions/251078/ - person Gaurav; 09.11.2015