Я пытался найти код Python, который позволил бы мне заменить отсутствующие значения в столбце фрейма данных. Основное внимание в моем анализе уделяется биостатистике, поэтому мне неудобно заменять значения с помощью средних / медиан / режимов. Я хотел бы применить метод "Hot Deck Imputation".
Я не могу найти в сети какие-либо функции или пакеты Python, которые принимают столбец фрейма данных и заполняют отсутствующие значения методом «Hot Deck Imputation».
Однако я видел этот проект GitHub и не счел его полезным .
Ниже приведен пример некоторых моих данных (предположим, что это фреймворк pandas):
| age | sex | bmi | anesthesia score | pain level |
|-----|-----|------|------------------|------------|
| 78 | 1 | 40.7 | 3 | 0 |
| 55 | 1 | 25.3 | 3 | 0 |
| 52 | 0 | 25.4 | 3 | 0 |
| 77 | 1 | 44.9 | 3 | 3 |
| 71 | 1 | 26.3 | 3 | 0 |
| 39 | 0 | 28.2 | 2 | 0 |
| 82 | 1 | 27 | 2 | 1 |
| 70 | 1 | 37.9 | 3 | 0 |
| 71 | 1 | NA | 3 | 1 |
| 53 | 0 | 24.5 | 2 | NA |
| 68 | 0 | 34.7 | 3 | 0 |
| 57 | 0 | 30.7 | 2 | 0 |
| 40 | 1 | 22.4 | 2 | 0 |
| 73 | 1 | 34.2 | 2 | 0 |
| 66 | 1 | NA | 3 | 1 |
| 55 | 1 | 42.6 | NA | NA |
| 53 | 0 | 37.5 | 3 | 3 |
| 65 | 0 | 31.6 | 2 | 2 |
| 36 | 0 | 29.6 | 1 | 0 |
| 60 | 0 | 25.7 | 2 | NA |
| 70 | 1 | 30 | NA | NA |
| 66 | 1 | 28.3 | 2 | 0 |
| 63 | 1 | 29.4 | 3 | 2 |
| 70 | 1 | 36 | 3 | 2 |
Я хотел бы применить функцию Python, которая позволила бы мне ввести столбец в качестве параметра и вернуть столбец с отсутствующими значениями, замененными вмененными значениями, используя метод «Hot Deck Imputation».
Я использую это для статистического моделирования с такими моделями, как линейная и логистическая регрессия с использованием Statsmodels.api
. Я не использую это для машинного обучения.
Любая помощь приветствуется!
bfill
или _ 2_ делать? Какой должен быть тип имитации горячего кода (LOCF) - person Cyttorak   schedule 31.12.2019ffill
используетlast observation carried forward
имитацию горячего кода LOCF. - person Prayson W. Daniel   schedule 31.12.2019