Тест Chi -Square для сгруппированных данных, за исключением определенных групп с пропущенными значениями в r

У меня есть такие данные:

df <- structure(list(`Orientación dicotómica` = c("Neurogastro", "Neurogastro", 
"Neurogastro", "Neurogastro", "No neurogastro", "No neurogastro", 
"No neurogastro", "No neurogastro", "No neurogastro"), `Fisiopatología más frecuente variante constipación` = c("Más de una variante", 
"Obstrucción del tracto de salida", "Tránsito lento / Inercia", 
"Transito normal", "Más de una variante", "Obstrucción del tracto de salida", 
"Tránsito lento / Inercia", "Transito normal", "Uso de fármacos"
), n = c(22L, 8L, 12L, 11L, 108L, 12L, 101L, 25L, 1L), Proporcion = c(41.5, 
15.1, 22.6, 20.8, 43, 4.8, 40.2, 10, 0.4), ds = c(11.5, 11.5, 
11.5, 11.5, 19.6, 19.6, 19.6, 19.6, 19.6), IC25 = c(32, 5.6, 
13.1, 11.3, 29.8, -8.4, 27, -3.2, -12.8), IC75 = c(51, 24.6, 
32.1, 30.3, 56.2, 18, 53.4, 23.2, 13.6)), row.names = c(NA, -9L
), class = c("tbl_df", "tbl", "data.frame"), na.action = structure(c(`10` = 10L), class = "omit"))

Это выглядит так:

введите описание изображения здесь

И я пытаюсь запустить chisq-тест с сгруппированными данными, чтобы проанализировать, есть ли статистически значимая разница между нейрогастро и отсутствием нейрогастро в отношении frecuente fisiopatología más frecuente.

Как опубликовано в тесте Chi -Square с сгруппированными данными в dplyr

я пытался

test <- df %>%
   group_by(`Fisiopatología más frecuente variante constipación`) %>%
   summarise(pval = chisq.test(Proporcion,`Orientación dicotómica`)$p.value)

Но я получаю сообщение об ошибке, которое, как мне кажется, связано с тем, что не существует Uso de fármacos для нейрогастро. Мой подход в порядке? Как я могу запустить тест для остальных групп, кроме отсутствующей?

Спасибо!


person Ale Rey    schedule 25.05.2021    source источник
comment
вы можете использовать tryCatch для обработки ошибок pval = tryCatch(chisq.test(...), error = function(e) NA)   -  person rawr    schedule 25.05.2021
comment
спасибо @rawr, но я получаю ту же ошибку: проблема с входом summarise() pval. x 'x' и 'y' должны иметь как минимум 2 уровня i Вход pval - tryCatch(chisq.test(Proporcion, Orientación dicotómica)$p.value). i Ошибка произошла в группе 5: Fisiopatología más frecuente variante constipación = Uso de fármacos.   -  person Ale Rey    schedule 26.05.2021
comment
вы не добавили error = ... часть   -  person rawr    schedule 26.05.2021
comment
Я сделал. Код был test <- fisiopato_constipacion_especialidad %>% group_by(Fisiopatología más frecuente variante constipación) %>% summarise(pval = tryCatch(chisq.test(Proporcion,Orientación dicotómica)$p.value), error = function(e) NA). Результат выше ...   -  person Ale Rey    schedule 26.05.2021
comment
ваши круглые скобки не в правильном месте summarise(pval = tryCatch(chisq.test(...)$p.value, error = function(e) NA))   -  person rawr    schedule 26.05.2021


Ответы (1)


Попробуйте использовать xtabs:

tbl <- xtabs(n ~ `Fisiopatología más frecuente variante constipación` + `Orientación dicotómica`, df)
tbl
#                                                   Orientación dicotómica
# Fisiopatología más frecuente variante constipación Neurogastro No neurogastro
#                   Más de una variante                       22            108
#                   Obstrucción del tracto de salida           8             12
#                   Tránsito lento / Inercia                  12            101
#                   Transito normal                           11             25
#                   Uso de fármacos                            0              1
chisq.test(tbl)
# 
#   Pearson's Chi-squared test
# 
# data:  tbl
# X-squared = 15.092, df = 4, p-value = 0.004514
# 
# Warning message:
# In chisq.test(tbl) : Chi-squared approximation may be incorrect
chisq.test(tbl)$p.value
# [1] 0.00451449
# Warning message:
# In chisq.test(tbl) : Chi-squared approximation may be incorrect

Предупреждение появляется из-за того, что в последней строке таблицы очень мало наблюдений / ожидаемых значений. Возможно, было бы лучше смоделировать p-значение, хотя в этом случае, похоже, это не повлияет на p-значение:

chisq.test(tbl, simulate.p.value=TRUE)
# 
#   Pearson's Chi-squared test with simulated p-value (based on 2000 replicates)
# 
# data:  tbl
# X-squared = 15.092, df = NA, p-value = 0.004498

Чтобы получить результаты для каждой строки:

results <- apply(tbl, 1, chisq.test)
sapply(results, function(x) x$p.value)
#              Más de una variante Obstrucción del tracto de salida         Tránsito lento / Inercia                  Transito normal 
#                     4.603430e-14                     3.710934e-01                     5.644889e-17                     1.963066e-02 
#                  Uso de fármacos 
#                     3.173105e-01 

or

sapply(results, "[", "p.value")
# $`Más de una variante.p.value`
# [1] 4.60343e-14
# 
# $`Obstrucción del tracto de salida.p.value`
# [1] 0.3710934
# 
# $`Tránsito lento / Inercia.p.value`
# [1] 5.644889e-17
# 
# $`Transito normal.p.value`
# [1] 0.01963066
# 
# $`Uso de fármacos.p.value`
# [1] 0.3173105
person dcarlson    schedule 25.05.2021
comment
спасибо @dcarlson, я думаю, это приближение может быть полезно. Однако я пытаюсь получить значение p для каждой строки (сравнивая нейрогастро и отсутствие нейрогатро). Это возможно? - person Ale Rey; 26.05.2021
comment
Я добавил код, чтобы получить результаты для каждой строки. - person dcarlson; 26.05.2021
comment
Я пробовал код, но results <- apply(tbl, 1, chisq.test)$p.value дает NULL, а sapply(results, function(x) x$p.value) дает list () ... извините за беспокойство, но я новичок в этой области - person Ale Rey; 26.05.2021
comment
Я исправил: results <- apply(tbl, 1, chisq.test). - person dcarlson; 26.05.2021
comment
Здорово! Теперь это работает! Ура, приятель - person Ale Rey; 26.05.2021