Прогнозирование дохода ›50 000 долл. США по данным переписи с использованием моделирования случайного леса

Сценарий: Мелисса Девлин, Джоуи Ромнесс, Рик Пирс

Данные переписи населения США, использованные в этом моделировании, содержат +32 тыс. записей и 14 признаков. Мы исследовали, очистили и преобразовали данные, чтобы они соответствовали моделированию случайного леса.

Цель этого упражнения по моделированию состоит в том, чтобы предсказать, что человек заработает более 50 тысяч долларов, учитывая набор критериев. Базовая точность составляет 75 %, что означает, что 75 % данных представлены людьми с доходом менее 50 тысяч долларов; Следовательно, успешная модель будет определена как имеющая точность выше 75%.

Мы выбрали Random Forest по нескольким причинам:

  • Модератор запретил нам использовать эту модель в этом упражнении.
  • Классификатор случайного леса хорошо обрабатывает отсутствующие или неправильно классифицированные данные; Точность поддерживается на больших совокупностях данных.
  • Обрабатывает большие наборы данных с высокой точностью и большей размерностью.

Очистка данных — пустых значений не было; однако были неизвестные значения (вопросительные знаки). Неизвестные значения составили менее 8% данных, поэтому они были исключены из генеральной совокупности. Учитывая эту логику, мы также удалили Род занятий, Родную страну и Рабочий класс из-за неизвестных значений. * Это было выполнено как на обучающих, так и на тестовых наборах данных.

EDA/Feature Engineering: после просмотра категориальных столбцов наибольшую корреляцию показали семейное положение и образование. Они были фиктивными и бинарными как в обучающем, так и в тестовом наборах данных, при этом столбец «Семейное положение» представлял 0, если «Не замужем», и 1, если «Женат». То же самое было сделано для столбца «Заработная плата», где 0 представлял «50 тысяч долларов». и 1 представляет «50 тысяч долларов». Была проверена корреляция между заработной платой и всеми функциями, при этом функции «Образование» и «Семейное положение» имели самую высокую корреляцию по сравнению с любой другой характеристикой в ​​наборе данных, как показано здесь:

В рамках уровня образования люди, окончившие среднюю школу, имели более высокую корреляцию с заработной платой выше 50 тысяч долларов, как показано ниже:

Кроме того, средний возраст людей, зарабатывающих более 50 тысяч долларов, примерно на 10 лет старше, чем у тех, кто зарабатывает менее 50 тысяч долларов.

Прирост капитала тесно связан с заработной платой; Чем выше прирост капитала, тем выше сумма заработной платы.

Вот несколько примечательных выводов:

  • Не было никакого реального различия между рабочими часами в неделю и тем, сколько люди зарабатывали.
  • Высокая корреляция между полом и заработной платой.
  • Родная страна, являющаяся Соединенными Штатами, показала более сильную корреляцию; однако это не было самой высокой корреляцией.

Моделирование. Функция модели случайного леса была написана для создания экземпляра модели и создания поиска по сетке с использованием гиперпараметров для итерации более 300 моделей и предоставления отзывов о наиболее эффективных моделях. Используемые гиперпараметры: «max_features», «max_depth», «n_estimators».

Прогнозы были сделаны для выходных тестовых значений с использованием модели, возвращенной функцией случайного леса. Матрица путаницы прогнозов показана ниже:

Следующие показатели были рассчитаны для изучения других форм оценки модели:

Точность модели превысила базовый уровень; Однако модель переоценивает отрицательный класс. Это может быть связано с несбалансированными классами целевой переменной. В будущем одним из способов исправить это будет попытка искусственно сбалансировать эти классы с помощью начальной загрузки.

Выводы. Кульминацией этого проекта стала отправка CSV-файла, показывающего вероятность того, что человек заработает более 50 000 долларов США с учетом определенного набора функций. Как указывалось ранее, будущий анализ этих данных может включать использование начальной загрузки, получение более точного словаря данных, а также получение расы/членов семьи/иммиграционного статуса.