медиана VS медиана выживаемости (из сурфита)

Это может показаться глупым вопросом, но мне было интересно, почему медиана из median и медиана из survfit (пакет выживания) различаются

Я попытался смоделировать учебник на sciencing.com:

Составьте список времени выживания всех субъектов в вашей выборке. Например, если у вас пять студентов (в реальном исследовании у вас было бы больше), и их время до окончания школы составляло 3 года, 4 года (пока), 4,5 года, 3,5 года и 7 лет (пока), напишите вниз: 3, 4, 4,5, 3,5, 7.

Поместите знак плюса (или другой знак) рядом с любым временем, которое подвергается цензуре справа (то есть тем, в которых событие еще не произошло). Ваш список будет выглядеть так: 3, 4+, 4.5, 3.5, 7+.

Итак, я создал data.frame (T для мертвых и F для живых):

survive <- data.frame(OS = c(3,4,4.5,3.5,7), status = c(T,F,T,T,F))

медиана равна 4, как говорится на сайте sciencing.com:

median(survive$OS)
[1] 4

но когда я провожу анализ выживаемости с помощью пакета выживания, я получаю следующее:

Call: survfit(formula = Surv(OS, status) ~ 1, data = survive)

      n  events  median 0.95LCL 0.95UCL 
    5.0     3.0     4.5     3.5      NA

Итак, мой вопрос: почему эти две медианы разные?

Благодарность


person Reza Khayami    schedule 03.09.2020    source источник


Ответы (1)


Помните, что время, которое у вас есть, - это не время выживания, а время наблюдения. Двое из них подвергнуты цензуре справа, что означает, что мы не знаем, что с ними произошло после времени их последующего наблюдения.

Предположим, мы построим вашу кривую выживаемости:

 plot(Surv(survive$OS, survive$status))

введите описание изображения здесь

Этот график показывает нам долю выживших среди людей, за которыми мы активно наблюдаем. Она постепенно снижается по мере того, как люди умирают, но если мы теряем кого-то, за кем следует следить, расчетная выживаемость в этот момент не меняется (почему тот факт, что мы теряем кого-то, за кем наблюдаем, должен изменять нашу расчетную выживаемость в этот момент?)

Теперь давайте воспользуемся этим графиком, чтобы ответить на вопрос. Через какое время наблюдаемая выживаемость упадет ниже 50%? Мы можем провести горизонтальную линию при y = 0,5 и посмотреть, при каком значении эта линия пересекает кривую выживаемости:

abline(h = 0.5, lty = 2, col = "red")
abline(v = 4.5, lty = 2, col = "red")

введите описание изображения здесь

Мы видим, что расчетная выживаемость падает ниже 50% через 4,5 года, так что это среднее время выживаемости. Подсчитайте людей в каждой точке, и мы увидим следующее:

  • Время = 0: в нашей выборке 5 человек, все из которых живы (выживаемость = 100%).
  • Время = 3: В нашей выборке 5 человек, один из которых умер (выживаемость = 80%).
  • Время = 3,5: В нашей выборке 5 человек, двое из которых умерли (выживаемость = 60%).
  • Время = 4: В нашей выборке 4 человека, так как мы потеряли одного, требующего дальнейшего наблюдения. Тот факт, что мы потеряли этого человека для последующего наблюдения, не может повлиять на предполагаемую выживаемость на тот момент, поэтому выживаемость остается на уровне 60%. Обратите внимание, что если бы человек умер вместо того, чтобы быть потерянным для последующего наблюдения, выживаемость упала бы до 40%, а средняя выживаемость действительно составила бы 4 года.
  • Время = 4,5: В нашей выборке 4 человека, и только один из них жив (выживаемость = 0,25).
person Allan Cameron    schedule 03.09.2020
comment
Большое Вам спасибо. Ваше объяснение действительно помогло мне понять эту концепцию - person Reza Khayami; 03.09.2020