Я работаю с очень большим набором данных со 132 019 наблюдениями 18 переменных. Я использовал пакет clusterSim
для расчета статистики псевдо-F для кластеров, созданных с использованием Kohonen
SOM. Я пытаюсь оценить различные размеры кластеров (например, 4, 6, 9 кластеров) с помощью значений p, но получаю странные результаты, и я недостаточно подкован в статистике, чтобы понять, что продолжается.
Я использую следующий код для получения псевдо-F.
library(clusterSim)
psF6 <- index.G1(yelpInfScale, cl = som.6$unit.classif)
psF6
[1] 48783.4
Затем я использую следующий код, чтобы получить p-значение. Когда я делаю lower.tail = T
, я получаю 1
, а когда я делаю lower.tail = F
, я получаю 0
.
k6 = 6
pf(q = psF6, df1 = k6 - 1, df2 = n - k6, lower.tail = FALSE)
[1] 0
Думаю, я ожидал не круглого числа, поэтому я не понимаю, как интерпретировать результаты. Я получаю одни и те же результаты независимо от того, какой размер кластера я оцениваю. Я где-то читал об изменении местами df1
и df2
в расчетах, но это кажется странным. Кроме того, справочный текст, который я использую («Интеллектуальный анализ данных и прогнозная аналитика» Larose), использует это для оценки кластеров k-средних, поэтому мне интересно, проблема в том, что я использую кластеры Кохонена.