MICE - количество множественных вмененных наборов данных.

У меня есть несколько вопросов относительно полезности числа наборов данных с множественным условным исчислением "m". Я понял, что мыши будут повторять процесс вменения недостающих значений в наборе данных m раз.

1) Учитывают ли мыши вменение предыдущего шага и, таким образом, каждый шаг приближается к возможной конвергенции, или каждый шаг полностью независим друг от друга?

2) Если каждый шаг не зависит друг от друга, какой смысл иметь несколько наборов вмененных данных для целей вменения?

В статье, объясняющей мышей, есть схема, показывающая несколько шагов вменения

Я полагаю, что чем больше у нас вмененного набора данных, тем лучше, когда мы хотим объединить результаты, однако этап анализа результатов подразумевает создание прогнозной модели, которая может быть:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

Что произойдет, если в моем наборе данных нет столбца или меток для прогнозирования? Действительно, мой набор данных содержит измерения геномики, и все они независимы. Как я могу объединить результаты или объединить m условно исчисленных наборов данных, не выполняя шаг прогнозирования?

Лучший,

Бабас

r missing-data r-mice

Babas 15.05.2018 источник

comment

Какой анализ вы хотите провести после многократного вменения набора данных? Если функция pool() не поддерживает ваш анализ, вы можете объединить свои результаты вручную, используя правила Рубина после выполнения анализа для каждого вмененного набора данных. - Wietze314 15.05.2018

comment

Я анализирую различные методы вменения для данных микромассивов, поэтому моя идея состоит в том, чтобы случайным образом вставлять значения Nan в мой набор данных и проверять расстояние между вмененным значением и реальным значением. Вот почему я не знаю, что делать с набором условных данных m. Должен ли я что-то значить? - Babas 15.05.2018

comment

Короче не уверен. Цель множественного вменения состоит в том, чтобы провести анализ и объединить результаты, а также принять во внимание неопределенность вмененных значений в анализе. Цель не в том, чтобы получить один правильный полный набор данных. Взятие среднего значения всех вмененных наборов - это способ объединения этих наборов, который был бы таким же, как создание модели только с перехватом и объединение результатов. Другой способ - сравнить вмененное значение с фактическим значением в каждом вмененном наборе отдельно, а затем объединить эти сравнения. - Wietze314 15.05.2018

comment

Хорошо, большое вам спасибо. Действительно, у меня было неправильное представление о множественном вменении. Множественное вменение обеспечивает полезную стратегию для работы с наборами данных с пропущенными значениями. Вместо того, чтобы заполнять одно значение для каждого пропущенного значения, процедура множественного вменения Рубина (1987) заменяет каждое пропущенное значение набором правдоподобных значений, которые представляют неопределенность в отношении правильного значения для вменения. - Babas 15.05.2018

comment

Это правильно! - Wietze314 15.05.2018

comment

к 1) да, каждый набор условно исчисленных данных не зависит друг от друга (по крайней мере, в том смысле, в котором вы это имеете в виду) о 2) Общая точка - это учет неопределенности, которая возникает при вменении. Вы должны создать свои m наборов данных, а затем выполнить анализ для каждого набора данных (m раз). Так что вы можете в конце концов дать некоторый доверительный интервал, когда результат может находиться посередине. В зависимости от того, какой вид анализа или следующий шаг вы планируете после вменения, множественное вменение может иметь смысл или нет. - Steffen Moritz 16.05.2018

Ответы (1)

arrow_upward
1
arrow_downward

Хорошо, что у вас есть эти вопросы. Множественное вменение очень часто понимается неправильно. Это больше общая концепция того, как выполнять анализ с отсутствующими данными, чем алгоритм, который просто дает вам один набор данных без пропущенных значений.

Нет никакого совпадения. Ни один из m вмененных наборов данных не имеет "лучших" вмененных значений.

Все дело в том, чтобы смоделировать неопределенность процесса вменения. Если значение NA заменяется в одном наборе условно исчисленных данных, например, на просто 5, это никогда не будет всей правдой ... более точное утверждение может быть примерно таким: значение, вероятно, находится где-то между 4 и 6 ....

Интересно прочитать эту статью Рубина: https://www.jstor.org/stable/2291635

Steffen Moritz 11.11.2018

MICE - количество множественных вмененных наборов данных.

Ответы (1)

Похожие вопросы