MICE - количество множественных вмененных наборов данных.

У меня есть несколько вопросов относительно полезности числа наборов данных с множественным условным исчислением "m". Я понял, что мыши будут повторять процесс вменения недостающих значений в наборе данных m раз.

1) Учитывают ли мыши вменение предыдущего шага и, таким образом, каждый шаг приближается к возможной конвергенции, или каждый шаг полностью независим друг от друга?

2) Если каждый шаг не зависит друг от друга, какой смысл иметь несколько наборов вмененных данных для целей вменения?

В статье, объясняющей мышей, есть схема, показывающая несколько шагов вменения  введите описание изображения здесь

Я полагаю, что чем больше у нас вмененного набора данных, тем лучше, когда мы хотим объединить результаты, однако этап анализа результатов подразумевает создание прогнозной модели, которая может быть:

#build predictive model
fit <- with(data = imp, lm(y ~ x + z))

Что произойдет, если в моем наборе данных нет столбца или меток для прогнозирования? Действительно, мой набор данных содержит измерения геномики, и все они независимы. Как я могу объединить результаты или объединить m условно исчисленных наборов данных, не выполняя шаг прогнозирования?

Лучший,

Бабас


person Babas    schedule 15.05.2018    source источник
comment
Какой анализ вы хотите провести после многократного вменения набора данных? Если функция pool() не поддерживает ваш анализ, вы можете объединить свои результаты вручную, используя правила Рубина после выполнения анализа для каждого вмененного набора данных.   -  person Wietze314    schedule 15.05.2018
comment
Я анализирую различные методы вменения для данных микромассивов, поэтому моя идея состоит в том, чтобы случайным образом вставлять значения Nan в мой набор данных и проверять расстояние между вмененным значением и реальным значением. Вот почему я не знаю, что делать с набором условных данных m. Должен ли я что-то значить?   -  person Babas    schedule 15.05.2018
comment
Короче не уверен. Цель множественного вменения состоит в том, чтобы провести анализ и объединить результаты, а также принять во внимание неопределенность вмененных значений в анализе. Цель не в том, чтобы получить один правильный полный набор данных. Взятие среднего значения всех вмененных наборов - это способ объединения этих наборов, который был бы таким же, как создание модели только с перехватом и объединение результатов. Другой способ - сравнить вмененное значение с фактическим значением в каждом вмененном наборе отдельно, а затем объединить эти сравнения.   -  person Wietze314    schedule 15.05.2018
comment
Хорошо, большое вам спасибо. Действительно, у меня было неправильное представление о множественном вменении. Множественное вменение обеспечивает полезную стратегию для работы с наборами данных с пропущенными значениями. Вместо того, чтобы заполнять одно значение для каждого пропущенного значения, процедура множественного вменения Рубина (1987) заменяет каждое пропущенное значение набором правдоподобных значений, которые представляют неопределенность в отношении правильного значения для вменения.   -  person Babas    schedule 15.05.2018
comment
Это правильно!   -  person Wietze314    schedule 15.05.2018
comment
к 1) да, каждый набор условно исчисленных данных не зависит друг от друга (по крайней мере, в том смысле, в котором вы это имеете в виду) о 2) Общая точка - это учет неопределенности, которая возникает при вменении. Вы должны создать свои m наборов данных, а затем выполнить анализ для каждого набора данных (m раз). Так что вы можете в конце концов дать некоторый доверительный интервал, когда результат может находиться посередине. В зависимости от того, какой вид анализа или следующий шаг вы планируете после вменения, множественное вменение может иметь смысл или нет.   -  person Steffen Moritz    schedule 16.05.2018


Ответы (1)


Хорошо, что у вас есть эти вопросы. Множественное вменение очень часто понимается неправильно. Это больше общая концепция того, как выполнять анализ с отсутствующими данными, чем алгоритм, который просто дает вам один набор данных без пропущенных значений.

1) Учитывают ли мыши вменение предыдущего шага и, таким образом, каждый шаг приближается к возможной конвергенции, или каждый шаг полностью независим друг от друга?

Нет никакого совпадения. Ни один из m вмененных наборов данных не имеет "лучших" вмененных значений.

2) Если каждый шаг не зависит друг от друга, какой смысл иметь несколько наборов вмененных данных для целей вменения?

Все дело в том, чтобы смоделировать неопределенность процесса вменения. Если значение NA заменяется в одном наборе условно исчисленных данных, например, на просто 5, это никогда не будет всей правдой ... более точное утверждение может быть примерно таким: значение, вероятно, находится где-то между 4 и 6 ....

Интересно прочитать эту статью Рубина: https://www.jstor.org/stable/2291635

person Steffen Moritz    schedule 11.11.2018