
Прибудет ли мой рейс вовремя в Seatac? - Часть 2 Модель классификации
Это был третий проект моего 12-недельного буткемпа Metis по науке о данных. Подсказка для этого проекта заключалась в том, чтобы завершить проект с использованием контролируемого обучения. Как и все проекты Metis, он был открытым, и каждый студент мог взять идею и реализовать ее.
Я решил изучить прибытие внутренних рейсов в аэропорт Ситак, мой местный аэропорт, как вовремя или с задержкой. Веб-сайт Бюро транспорта (transtats.bts.gov) был источником моих данных, поскольку они предлагают массу информации о своевременности рейсов в США. Я также использовал данные о погоде из NOAH (www.ncdc.noaa.gov), чтобы помочь в моделировании.
В Части 1 этого поста я провел подробное исследование данных о рейсах, прибывающих в аэропорт Ситак. В этом посте я опишу свою модель классификации машинного обучения, чтобы определить, прибудет ли рейс вовремя или будет задержан.
Модели классификации
Цель для этой модели просто задерживалась или не задерживалась. Я использовал определение задержки в авиакомпании как 15 минут после запланированного времени прибытия.
Характеристики моей модели были следующими
- Авиакомпания и номер рейса
- Месяц и день недели
- Планируемое время прибытия в Seatac
- Планируемое время полета и дальность полета
- Погода в Сиэтле, Чикаго, Нью-Йорке (температура, скорость ветра, количество снегопадов).
Чтобы оценить модели классификации, я сосредоточился на отзыве. Пассажиры не слишком расстраиваются, когда вы предсказываете, что рейс задержится, а в итоге он прибывает вовремя. Они злятся, когда вы предсказываете, что рейс будет вовремя, а в итоге он задерживается. Я изучил точность, точность, полноту и AUC (площадь под кривой ROC), чтобы оценить три разные модели классификации.
Набор данных был смещен на 81% в сторону класса большинства (своевременно) и на 19% в сторону класса меньшинства (с задержкой). Мои ранние модели хотели прогнозировать на 100% вовремя. Чтобы заставить модели использовать класс меньшинства, класс большинства был уменьшен, чтобы классы были одинакового размера. Это было сделано только для обучения. Наборы для перекрестной проверки и тестирования содержали исходный дистрибутив.
В этом проекте использовалось несколько моделей, и результаты приведены в таблице ниже. Я сосредоточусь на вспоминании, статистическом показателе, наиболее важном для этого проекта. Напоминание важно, потому что люди не будут слишком расстроены, если вы предскажете, что рейс будет задержан, когда он на самом деле прибудет вовремя (слишком много ложных срабатываний), но они будут расстроены, если вы предскажете, что рейс будет вовремя, и он прибудет вовремя. на самом деле задерживается (слишком много ложных срабатываний).
Модель случайного леса имела самый высокий показатель полноты 0,64 и фактически занимала самое высокое место во всех статистических измерениях. Модель дерева решений заняла второе место по отзыву, но модель KNN заняла второе место по всем измерениям.


Будущая работа
Этот проект рассматривал только прибытие в аэропорт Seatac. Было бы очень интересно посмотреть на другой город и сравнить результаты. Сиэтл находится на западной стороне континентальной части США. Как будут выглядеть данные из города в центре или на востоке?
Также было бы интересно сделать этот проект мультиклассовым, добавив еще один класс под названием «Очень задержанные» для рейсов, задержанных более чем на час. Будет ли это предсказать легче или сложнее?
Расширение этого проекта до предела, объединение всех городов США в один большой набор данных позволит добавить информацию о нескольких траекториях полета самолета. Однако для этого проекта потребуется очень большой набор данных и невероятная вычислительная мощность.