Как моя жажда успешной модели машинного обучения заставила меня проиграть хакатон

Ну, по-моему… по крайней мере, я пришел вторым с противоположной стороны

Нам было поручено создать модель, которая могла бы прогнозировать отток клиентов (т. е. отток клиентов). Отток клиентов — одна из самых больших статей расходов любой организации. Если бы мы могли выяснить, почему клиент уходит и когда он уходит с достаточной точностью, это очень помогло бы организации разработать стратегию своих инициатив по удержанию клиентов. Это была невероятная возможность продемонстрировать знания, полученные на трехнедельных занятиях по науке о данных и машинному обучению.

Набор данных, предоставленный нам на Kaggle, дал нам возможность использовать базовую методологию науки о данных. Ниже приведено изображение, которое наглядно объясняет методологию науки о данных.

С предоставленным набором данных каждый шаг до понимания данных уже был выполнен. Все, что осталось сделать, это провести исследовательский анализ данных (также известный как EDA). EDA был необходимым шагом перед созданием нашей модели. В основном мы следуем этим шагам;

Шаг 1: ПОЛУЧИТЬ ДАННЫЕ – Шаг 2: ОЧИСТКА – Шаг 3: EDA – Шаг 4: СОЗДАНИЕ МОДЕЛИ em>

ШАГ 1: ПОЛУЧИТЕ ДАННЫЕ

Самым первым шагом был импорт моих файлов .CSV. К счастью, набор данных уже был разделен на тестовые данные «TEST.CSV» и данные для обучения «TRAIN.CSV». Однако перед импортом моего набора данных я импортировал необходимые библиотеки, которые мне понадобятся, чтобы помочь мне лучше понять мои данные.

Всего в моих данных поезда было 13 столбцов, а в моих тестовых данных — 12 столбцов. В моих обучающих данных были целевые данные с именем столбца Exited, что означало, что у меня было 12 функций, которые потенциально могли обучать мою модель.

ШАГ 2: ОЧИСТКА

Как я уже говорил ранее, мой набор данных уже был чистым. Однако, как «ученый по данным» — теперь я могу все сам ;) — я должен был убедиться, что в моем наборе данных нет нулевых/отсутствующих значений. После проверки и подтверждения того, что набор данных чист, я мог перейти к следующему шагу.

ЭТАП 3: ИССЛЕДОВАТЕЛЬСКИЙ АНАЛИЗ ДАННЫХ (EDA)

Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных с целью выявления закономерностей, выявления аномалий, проверки гипотез и проверки предположений с помощью сводной статистики и графических представлений.

В основном, на этапе или уровне я выполнял следующие действия.

Предварительная обработка данных
Выбор функций: проверены на корреляции данных, использована тепловая карта и разделены данные на зависимые и независимые переменные.

Для предварительной обработки данных все, что я сделал, это использовал LabelEncoder для преобразования строковых меток в числа. Я сделал это, потому что в машине важно представить наши данные так, чтобы наша машина могла их понять.

Переходя к выбору функций, я проверил корреляцию моих целевых данных, которая поможет моей модели иметь высокую точность прогнозирования. После этого я использовал тепловую карту для визуализации результатов, а затем разделил данные о поездах на зависимые и независимые переменные.

ШАГ 4: ПОСТРОЕНИЕ МОДЕЛИ

Это момент истины. После выбора функций для обучения моей модели естественным процессом является ее тестирование. Я использовал шесть различных моделей для своего прогноза, и каждая из них давала более низкую точность, чем предыдущая. Это заняло более часа, и после 19 представлений я понял, что сосредоточен на победе в соревновании, а не на обучении моей модели, чтобы она давала мне точные прогнозы. Модели, которые я использовал, были;

Логистическая регрессия
Классификатор дерева решений
Случайный лесной классификатор
Гауссовский классификатор процессов
Классификатор KNeighbours
Классификатор СГД

Это некоторые результаты моих представлений;

На момент написания этой статьи прошел уже день после хакатона. Я бы сказал, что мог бы выбрать свои функции лучше, и я мог бы прочитать другие статьи, чтобы расширить свои знания. Однако, зная, что я за человек, эта «потеря» должна и будет подталкивать меня к тому, чтобы узнать больше, а также побуждать меня расширять свои знания в области машинного обучения. До сих пор это был удивительный опыт обучения, и я не могу дождаться, чтобы принять участие в другом хакатоне. Кто знает, может, я одержу победу, надеюсь, не с противоположной стороны ;).