Я пытаюсь понять, каковы остаточные значения «ld», возникающие в результате выполнения функции невязки на модели survreg?
Например
library(survival)
mod <- survreg(Surv(time, status -1) ~ age , data = lung)
residuals( mod , "ldcase")
residuals( mod, "ldshape")
residuals( mod , "ldresp")
В документации по остаточной функции сказано следующее:
Диагностика на основе этих величин обсуждается в статье Эскобара и Микера. Основными из них являются невязки смещения правдоподобия при возмущении веса случая (ldcase), значения отклика (ldresp) и формы.
использованная литература
Эскобар, Л.А. и Микер, В.К. (1992). Оценка влияния в регрессионном анализе с цензурированными данными. Биометрия 48, 507-528.
Взяв вес случая «ldcase», в частности, я понял из упомянутой статьи, что эти остатки представляют собой оценку двойной разницы в логарифмическом правдоподобии между исходной моделью и той же моделью, подобранной путем установки веса субъектов i равным 2.
Однако, когда я пытаюсь вручную закодировать это самостоятельно, мои производные значения, похоже, не имеют никакого отношения к значениям, полученным остаточной функцией (полностью воспроизводимый пример ниже):
library(survival)
library(ggplot2)
mod <- survreg( Surv(time, status -1) ~ age , data = lung)
get_ld <- function(i, mod){
weight <- rep(1 , nrow(lung))
weight[i] <- 2
modw <- survreg(
Surv(time, status -1) ~ age ,
data = lung ,
weights = weight
)
2 * as.numeric(logLik(mod) - logLik(modw))
}
dat <- data.frame(
ld = sapply( 1:nrow(lung), get_ld , mod = mod),
ld_est = residuals(mod , "ldcase")
)
ggplot( data = dat , aes( x = ld_est , y = ld)) + geom_point()
Кроме того, из статьи предполагается, что эти остатки распределяются с помощью распределения 2 * chisq ( p + 2 ), что в этом случае с p = 1 дает одностороннюю 95% -ную точку отсечки 15,62, что означает, что мои остатки, полученные вручную, по крайней мере, в правильном масштабе, что меня очень смущает в отношении того, что на самом деле представляют собой остатки, возвращаемые «ldcase»?