Что это значит, когда дисперсионный анализ между двумя моделями не дает p-значения в R?

У меня есть два небольших набора данных:

infected.data.r.p <- structure(list(MLH = c(0.520408163265306, 0.436170212765957, 
0.344086021505376, 0.423076923076923, 0.406976744186047), ColGrowthCL_6 = c(5.923728814, 
0.283950617, 0.377358491, 1.728070175, 0.2)), .Names = c("MLH", 
"ColGrowthCL_6"), row.names = c("12", "22", "28", "30", "34"), class = "data.frame")

а также

uninfected.sampling <- structure(list(MLH = c(0.524271844660194, 0.457446808510638, 
0.354838709677419, 0.398058252427184, 0.436893203883495), ColGrowthCL_6 = c(4.401639344, 
4.827586207, 6.387096774, 6.320754717, 4.225490196)), .Names = c("MLH", 
"ColGrowthCL_6"), row.names = c("218", "18", "21", "212", "99"
), class = "data.frame")

Когда я пытаюсь сравнить эти две модели, используя синтаксис anova() в R (см. ниже), мне не удается получить p-значение. Я не уверен, что причиной проблемы является природа двух наборов данных (хотя мне также любопытно, что именно отличается между структурой двух наборов данных), но я полагаю, что проблема вполне может быть в этом. . Благодарю вас!

Синтаксис сравнения моделей:

infected.model<-glm(formula=as.formula(ColGrowthCL_6~MLH), family=poisson, infected.data.r.p)
uninfected.model<-glm(formula=as.formula(ColGrowthCL_6~MLH), family=poisson, uninfected.sampling)    

compare<-anova(infected.model,uninfected.model,test="Chisq")
print(compare)
summary(compare)

person Atticus29    schedule 24.08.2013    source источник
comment
Чтобы уточнить, второй набор данных был взят случайным образом из большего набора данных, чтобы он имел тот же размер выборки, что и первый набор данных. Позже я буду повторять этот процесс много раз, но я хотел сначала устранить неполадки в этом пилотном запуске.   -  person Atticus29    schedule 25.08.2013
comment
Статистически то, что вы пытаетесь сделать, на самом деле не имеет смысла. По крайней мере, если вы пытаетесь сравнить через анова.   -  person Dason    schedule 25.08.2013
comment
Точка взята (см. ниже). Любой совет, если не анова? Я предполагаю, что другой способ думать об этом состоит в том, что я хочу знать, приведут ли пять выборок, случайно взятых из большего набора данных, к типам коэффициента регрессии, которые я вижу в меньшем наборе данных (более 5% времени). Я думаю, я мог бы выяснить это эмпирически с помощью теста перестановки...   -  person Atticus29    schedule 25.08.2013
comment
Что именно вы хотите сделать? Вопрос, на который вы пытаетесь ответить, мне не ясен.   -  person Dason    schedule 25.08.2013
comment
Я действительно хочу дать следующее в качестве ответа, но я воздержусь и просто опубликую его в качестве комментария: чтобы ответить на вопрос о том, что это означает, когда вывод анова не дает p-значение (даже если вы указать тест) - это означает, что вы просите что-то, что не имеет смысла   -  person Dason    schedule 25.08.2013
comment
Надеюсь, вы не против - я убрал из ваших данных кучу бесполезного хлама, который заполнял экран...   -  person Dason    schedule 25.08.2013


Ответы (1)


Я считаю, что сравнивать модели можно только из одного и того же набора данных. Поэтому при сравнении двух (вложенных) моделей с хи-квадратом они должны быть из одного и того же набора данных - возможно, поэтому ваши p-значения не рассчитываются.

person hgeop    schedule 24.08.2013
comment
Ну конечно. Хорошая точка зрения! В таком случае, вы случайно не знаете, как я могу сравнить эти модели? В конечном счете, они взяты из одного и того же набора данных, но никогда не будут перекрываться с точки зрения выборок... - person Atticus29; 25.08.2013
comment
Я не знаю ни одного способа сделать то, что вы хотите сделать. Вы могли бы взять исходный набор данных и разделить его на два фактора (зараженные и неинфицированные) с двумя уровнями? Я также не уверен, что ссылка Пуассона здесь уместна, поскольку она обычно используется для данных подсчета, а ваш ответ - нет. Вы можете попробовать загрузить свои модели, чтобы получить 95% ДИ коэффициентов и посмотреть, перекрываются ли они, но не являются ли они статистически надежными. - person hgeop; 25.08.2013
comment
Еще раз спасибо, @hgeop! На самом деле я также боролся с функцией связи Пуассона. Я выбрал Пуассон, потому что некоторые из более низких значений очень распространены, а более высокие — нет. Распределение не является ни существенно нормальным, ни пуассоновским, и я не уверен, что с этим делать... - person Atticus29; 25.08.2013
comment
Ну, пуассон не имеет какого-либо смысла, потому что буквально принимает значения только для целых чисел. - person Dason; 25.08.2013
comment
Слушай, чувак, я здесь лечу вслепую. Эти статистические книги очень сбивают с толку. Я выбрал glms именно потому, что они подходят для ненормальных распределений. Любые советы о том, что делать, если мой дистрибутив не похож ни на один из других дистрибутивов? - person Atticus29; 25.08.2013
comment
Ну, вы так и не ответили на мой вопрос о том, что на самом деле представляет собой ваш исследовательский вопрос. Также не похоже, что у вас много данных - откуда вы знаете, что нормальное распределение не работает? Обратите внимание, что предположение о нормальном распределении основано на условиях ошибки в линейной модели, а не на самой переменной отклика. Кроме того, совершенно ясно, что это больше вопрос статистики, а не вопрос программирования. - person Dason; 25.08.2013