Сумма распределения Пуассона и завышенного нуля распределения Пуассона

Я хотел бы знать, можно ли суммировать распределения Пуассона и нулевого раздувания Пуассона. Если я не ошибаюсь, возможна сумма распределений Пуассона, и вы все равно получите распределение Пуассона.

Однако, если мы суммируем распределение с нулевым завышением, результирующее больше не будет распределением Пуассона, например:

a <- data.frame(x = seq(1:100), y=rpois(1:100,2))
glma <- glm(y~x, data = a, family = "poisson")
dp <- sum(residuals(glma,type ="pearson")^2)/glma$df.residual

dp_total <- c()
for (j in 1:1000) {
  b <- data.frame(x = seq(1:100), y=rpois(1:100,runif(1, 1, 50)))
  c<- a$y + b$y
  c <- data.frame(x = seq(1:100), y=c)
  glmc <- glm(y~x, data = c, family = "poisson")
  dp <- sum(residuals(glmc,type ="pearson")^2)/glmc$df.residual
  dp_total <- c(dp_total,dp)
  a$y <- c$y
}

Если дисперсия около 1, это соответствует распределению Пуассона:

> max(dp_total)
[1] 1.493674
> mean(dp_total)
[1] 1.21753
> min(dp_total)
[1] 0.7643539

Однако, если мы суммируем набор данных с нулевым завышением, значение дисперсии начинает увеличиваться.

for (j in 1:1000) {
  b <- data.frame(x = seq(1:100), y=rpois(1:100, runif(1, 0, 1)))
  c <- a$y + b$y
  c <- data.frame(x = seq(1:100), y=c)
  glmc <- glm(y~x, data = c, family = "poisson")
  dp <- sum(residuals(glmc,type ="pearson")^2)/glmc$df.residual
  dp_total <- c(dp_total,dp)
  a$y <- c$y
} 

Значение дисперсии начинает увеличиваться при суммировании данных Пуассона с нулевым завышением.

Как я могу смоделировать данные, сформированные с помощью Пуассона и нулевого завышения Пуассона?

Значения дисперсии начинают увеличиваться, когда суммируются пуассоновские данные с нулевым завышением


person jentila    schedule 17.12.2020    source источник
comment
переполнение стека отлично подходит для вопросов по программированию, вопросы по статистике лучше подходят для перекрестной проверки.   -  person PeterK    schedule 17.12.2020
comment
Согласен, что это подходит для stats.stackexchange.com. Тем не менее, нулевое раздутое распределение представляет собой смесь некоторого распределения и точечной массы в нуле. Распределение Пуассона и завышенного нуля Пуассона представляет собой свертку двух функций масс. Поскольку свертка является линейным оператором, это conv(P1, ZIP2) = conv(P1, w * point_mass(0) + (1 - w) P2) = w * conv(P1, point_mass(0)) + (1 - w ) conv(P1, P2), где conv(P1, point_mass(0)) = P1 и conv(P1, P2) = Пуассона с лямбда = лямбда1 + лямбда2. Таким образом, получается, что результат снова представляет собой смесь, на этот раз Пуассона с разными лямбда-выражениями.   -  person Robert Dodier    schedule 17.12.2020


Ответы (1)


Вы правы, сумма n независимых распределений Пуассона по-прежнему является распределением Пуассона. В любом случае всегда можно суммировать случайные величины, проблема в том, что во многих случаях сумма не имеет хорошо известного распределения, как в вашем случае. В этих случаях вы используете приблизительный вывод, есть много инструментов, наиболее распространенные и распространенные используют MCMC. Я думаю, что это единственное доступное решение, я не думаю, что есть аналитические формулы для такой проблемы. Но вы можете проверить литературу, даже чтобы увидеть, как другие решили эту проблему.

person N. M.    schedule 17.12.2020