Я работаю с набором данных биопсии из библиотеки MASS в R. Я нахожусь на начальных этапах создания модели логистической регрессии, чтобы увидеть, какие переменные влияют на вероятность наличия злокачественной опухоли. Я удалил все строки с недостающими данными (около 16 наблюдений). Все переменные значимы сами по себе, поэтому я начал с наиболее полной модели, в которую были включены все переменные, и третья переменная (V3 - Однородность размера ячеек) была наименее значимой в этой максимально полной модели.
Я создал другую модель с удаленным V3. Затем я хотел использовать функцию anova (), чтобы увидеть, есть ли существенная разница в подгонке двух моделей. Тем не менее, я не получил p-значения из моего теста анова. Означает ли это, что значение p почти равно 1? Я сделал ошибку где-то в настройке моей модели?
Любой вклад приветствуется!
#post removal of rows with missing data from biopsy in library(MASS)
relevel(biopsy$class, ref = "malignant")
#assigns value of interst to malignant instead of benign.
fullest.model = glm(biopsy$class~biopsy[,2]+biopsy[,3]+biopsy[,4]+biopsy[,5]+
biopsy[,6]+biopsy[,7]+biopsy[,8]+biopsy[,9]+biopsy[,10]
,family = binomial(link = "logit"))
model1 = glm(biopsy$class~biopsy[,2]+biopsy[,4]+biopsy[,5]+
biopsy[,6]+biopsy[,7]+biopsy[,8]+biopsy[,9]+biopsy[,10]
,family = binomial(link = "logit"))
anova(model1, fullest.model)
На выходе получаю:
Resid. Df Resid. Dev Df Deviance
1 674 102.89
2 673 102.89 1 0.00090001
^ Не вижу pvalue !!
summary(model1)
. - person Maurits Evers   schedule 05.03.2018anova(model1, fullest.model, test="Chisq")
вычислит статистику теста отношения правдоподобия с распределением хи-квадрат, а также вероятность того, что статистика теста будет экстремальной или более экстремальной (ваше значение p). Это может быть то, что вам нужно. - person Maurits Evers   schedule 06.03.2018