Отсутствующие данные могут возникать, когда информация не предоставляется по одному или нескольким элементам или по всей единице. Отсутствующие данные — очень большая проблема в реальных сценариях. Отсутствующие данные также могут называться значениями NA (недоступно) в pandas. В DataFrame иногда многие наборы данных просто поступают с отсутствующими данными либо потому, что они существуют и не собирались, либо никогда не существовали. Например, предположим, что разные опрошенные пользователи могут решить не делиться своим доходом, некоторые пользователи могут решить не делиться адресом, таким образом, многие наборы данных пропали без вести.

Типы пропущенных значений

Полное случайное отсутствие (MCAR): Как следует из названия, полное случайное отсутствие означает, что нет никакой связи между отсутствием точки данных и какими-либо значениями в наборе данных, отсутствующими или наблюдаемыми. Отсутствующие данные — это просто случайное подмножество данных.

Отсутствие данных неслучайно (MNAR): -Отсутствие неслучайно означает, что существует четкая связь между склонностью значения к отсутствию и его значениями. Таким образом, в нашем опросе по депрессии респонденты с более высокими значениями депрессии не смогли заполнить анкету из-за своего уровня депрессии.

Случайное отсутствие (MAR): - Случайное отсутствие означает, что склонность к отсутствию значений имеет систематическую связь с наблюдаемыми данными, но не с отсутствующими данными. Это означает, что отсутствующее наблюдение не имеет ничего общего с отсутствующими значениями, но имеет корреляцию с наблюдаемыми переменными. Например, если вы проводите опрос о психических расстройствах у мужчин и женщин, вероятность того, что мужчины сообщат о своей депрессии, может быть меньше, или наоборот, но это не имеет никакого отношения к их уровню депрессии.

Случайное отсутствие означает, что тенденция к отсутствию точки данных связана не с самими отсутствующими данными, а с некоторыми наблюдаемыми данными в наборе данных.

Вывод здесь для MAR заключается в том, что значения отсутствующих данных можно каким-то образом предсказать на основе некоторых других переменных в наборе данных.

После прочтения этой статьи вы можете следить за этим.
Как обрабатывать отсутствующие значения в вашем наборе данных.



Спасибо за прочтение, надеюсь, вам понравилось. Подпишитесь на меня, чтобы узнать больше