Это описание моей проблемы:
"Согласно опросу о доходах и благосостоянии домохозяйств, нам необходимо выяснить 10 % домохозяйств с наибольшими доходами и расходами. Однако мы знаем, что эти собранные данные ненадежны из-за множества искажений. Несмотря на эти искажения , у нас есть некоторые функции в наборе данных, которые, безусловно, надежны. Но эти определенные функции являются лишь небольшой частью информации о благосостоянии каждого домохозяйства."
Ненадежные данные означают, что домохозяйства лгут правительству. Эти домохозяйства искажают свой доход и богатство, чтобы несправедливо получить больше государственных услуг. Следовательно, эти мошеннические заявления в исходных данных приведут к неверным результатам и шаблонам.
Теперь у меня есть следующие вопросы:
- Как мы должны поступать с ненадежными данными в науке о данных?
- Есть ли способ выяснить эти искажения, а затем более точно сообщить о 10% самых богатых людей, используя алгоритмы машинного обучения? -Как мы можем оценить наши ошибки в этом исследовании? Поскольку у нас есть немаркированный набор данных, следует ли мне искать методы маркировки? Или я должен использовать неконтролируемые методы? Или мне следует работать с полууправляемыми методами обучения?
- Есть ли какая-нибудь идея или приложение в машинном обучении, которое пытается улучшить качество собираемых данных?
Пожалуйста, представьте мне любые идеи или ссылки, которые могут помочь мне в этом вопросе.
Заранее спасибо.