Один из глобальных банков хотел бы понять, какие факторы влияют на расходы по кредитным картам. Банк хочет использовать эту информацию, чтобы провести аналогию с пользователями кредитных карт. Для решения проблемы банк провел опрос 5000 клиентов и собрал данные. Цель этого тематического исследования — понять поведение различных сегментов клиентов и факторы, влияющие на общие расходы (основная карта + дополнительная карта).

Цель: создать модель, которая будет прогнозировать кредитный лимит новых заявителей.

Цель: Учитывая профиль клиента, спрогнозировать кредитный лимит, который может быть предложен клиенту

2. Описание данных

Набор данных содержит данные примерно о 5000 клиентов. В данном наборе данных нет целевой функции, поэтому нам необходимо применить неконтролируемое обучение для получения решения. Набор данных содержал 130 атрибутов.

Всего имеется 130 столбцов, из которых 113 числовых и 17 категориальных.

Поиск пропущенных значений:

Как видно ниже, в атрибуте citysize есть нули.

Нулевые значения были заменены их средними значениями, как показано ниже.

EDA по графикам подсчета различных атрибутов и наблюдений:

Ниже приведены наблюдения, основанные на приведенных выше графиках.

Проживать:

У большинства клиентов кредитной карты есть только 1 или 2 человека в их домашнем хозяйстве.

Пол :

В приведенных данных равное количество мужчин и женщин-держателей кредитных карт.

Возрастная категория :

1. Нет держателей карт в возрасте до 18 лет.

2. Около 600 держателей карт в возрасте от 18 до 24 лет.

3. Около 800 держателей карт в возрасте от 25 до 34 лет.

4. Около 1200 держателей карт в возрасте от 35 до 49 лет.

5. Около 1100 держателей карт в возрасте от 50 до 4 лет.

6. Около 1000 держателей карт старше 65 лет.

Отсюда можно сделать вывод, что большинство держателей кредитных карт имеют возрастной диапазон 35–49,50–64,›65 лет.

Категория образования:

1.Большинство держателей карт имеют либо высшее образование, либо высшее образование, либо высшее образование.

2. Владельцев карт с образовательной категорией «Последипломное образование» очень мало.

Категория работы:

Большинство держателей кредитных карт попадают в категорию должностей «Управление и профессионалы» или «Продажи и офис».

Выйти на пенсию: большинство держателей кредитных карт не вышли на пенсию.

Регион: владельцы кредитных карт равномерно распределены во всех 5 регионах.

Городской размер: большинство держателей кредитных карт являются жителями города ›250 000

женатые: владельцы кредитных карт поровну распределены между состоящими и не состоящими в браке.

empcat : большинство держателей кредитных карт работают с текущим работодателем «менее 2», «от 2 до 5» и «более 15» лет.

дефолт: почти 900 держателей кредитных карт допустили дефолт.

jobsat: Похоже, что нет равного числа обладателей сертификата CC во всех категориях jobsat.

Создание КОРРЕЛЯЦИОННОЙ МАТРИЦЫ для проверки того, что все атрибуты ПОЛОЖИТЕЛЬНО коррелируют

Была сгенерирована матрица корреляции, а атрибуты, которые были очень сильно коррелированы, были удалены, чтобы можно было создать лучшую модель.

Чтобы определить атрибуты, влияющие на общие расходы клиентов, были суммированы значения потраченных карт и создана новая переменная ccspent.

ТЕПЛОВАЯ КАРТА. Тепловая карта была построена для проверки того, какие атрибуты положительно или отрицательно коррелируют с CCSpent.

Основываясь на приведенной выше тепловой карте, мы можем сделать следующие выводы:
1. Общее количество потраченных кредитных карт имеет положительную корреляцию с lninc,lncreddebt,lnothdebt,empcat,carvalue,carcatvalue,tollten,ownvcr,owndvd,owncd,ed
2. Общее количество потраченных средств по кредитной карте имеет отрицательную корреляцию с выходом на пенсию, полом, картой, льготой по карте.

Функции, выбранные для выявления факторов, влияющих на расходы клиентов:

регион,город,пол,возраст,эд,jobcat,empcat,пенсия,lninc,debtinc,lncreddebt,lnothdebt,по умолчанию,jobsat,брачный,супруг,проживать,homeown,hometype,cars,carown,
cartype,carvalue, carcatvalue,carbought,carbuy,причина,голосование,карта,cardtype,cardbenefit,cardfee,card2,card2type,card2benefit,card2fee,card2tenure,active,
срок пребывания,lnlongmon,lnlongten,tollten,equipten,lnequipten,owntv,hourstv, ownvcr, owndvd, owncd, ownpc, response_01, response_02, response_03, ccspent

Вышеупомянутые 54 атрибута использовались для определения факторов, влияющих на общие расходы клиентов, которые в дальнейшем будут использоваться для построения модели, которая может прогнозировать кредитный лимит клиента.

Random Forest Regressor использовался для определения основных функций, влияющих на расходы клиентов.

Факторы, влияющие на общие расходы клиентов

Выводы:

Основываясь на приведенном выше анализе, проведенном с использованием тепловой карты и регрессора случайного леса, мы можем сделать вывод, что следующие факторы больше всего влияют на общие расходы клиентов.

доход, кредитный долг, другой долг, долг, empcat, carvalue, carcatvalue, tollten, ownvcr, owndvd, owncd, hourstv, активный, по умолчанию

Учитывая факторы, давайте построим модель для прогнозирования кредитного лимита для новых заявителей:

Давайте выберем функции и выполним кластеризацию K-средних, чтобы определить кредитный лимит клиентов.

Мы можем включить 20 лучших важных функций, полученных из Random Forest Regressor. Мы также можем включить атрибуты количества, которые не входят в топ-20 функций, указанных ниже.

Кредитная задолженность, другая задолженность, задолженность

20 лучших функций, которые будут включены:

citysize,card2benefit,region,response_01,gender,lninc,empcat,пенсия,ownvcr,card2type,reason,lnequipten,homeown,card2fee,cars,cardfee,hourstv,active,default,carbuy.

Алгоритм K-Means Clustering использовался для прогнозирования кредитного лимита для новых заявителей. Метод локтя использовался для определения количества кластеров. Как видно из приведенного ниже графика, используемое значение K равно 6.

Построение модели с числом кластеров равным 6

Графики рассеяния были построены, чтобы понять и визуализировать, как были созданы кластеры.

Установка кредитного лимита клиента на основе вышеуказанных выводов кластеризации kMeans

1. В кластере 0 есть клиенты с широким диапазоном возрастных групп от 18 до 70 лет. Клиенты, чей доход составляет ‹ 650 000 долларов, а общая сумма платежей составляет ‹ 1300 и ‹ 2100, могут установить кредитный лимит в размере 2000.

2. Кластер 1 состоит в основном из более молодых клиентов, у которых меньше других долгов. Расходы для клиентов в этом кластере составляют 800 фунтов стерлингов. Следовательно, для клиентов, возраст которых составляет 40 фунтов стерлингов, доход составляет 200 тысяч долларов США, а сумма взносов составляет 500 фунтов стерлингов, может быть установлен кредитный лимит. из 800.

3. Кластер 2 включает клиентов в основном в возрасте > 55 лет и с высокой просроченной задолженностью. Доход варьируется от 0 до 580 тыс. долларов. Клиенты в этом кластере имеют 3500 платежей, а потраченные по кредитной карте — 2600. Следовательно, для этих клиентов лимит кредитной карты может быть установлен на 3000.

4. В кластере 3 есть клиенты, возраст которых широко разбросан, а доход составляет ‹ 315 000 долларов. Расходы по кредитной карте составляют ‹ 1300 для клиентов в этом кластере. tollten составляет 450 и 1300 фунтов стерлингов. Лимит кредитной карты может быть установлен на уровне 1500 для клиентов, попадающих в этот кластер.

5. Кластер 4 включает клиентов, возраст которых > 50 лет, а доход варьируется от 0 до 800 тыс. долларов. У них высокий долг, потраченная кредитная карта составляет 2000 фунтов стерлингов, а платежи > 2100 и 3800 фунтов стерлингов. Для этих клиентов кредитный лимит может быть установлен в размере 2200.

6. Кластер 5 включает большинство клиентов в возрасте ‹ 50 лет. Диапазон доходов составляет от 0 до 400 тысяч долларов. Плата за проезд составляет 1200 фунтов стерлингов, а диапазон расходов по кредитной карте составляет от 700 до 5000 фунтов стерлингов. Для этих клиентов может быть установлен кредитный лимит. между 2500–3000

В качестве дальнейшего шага было построено дерево решений, которое поможет определить кластер, в который попадет новый заявитель, и на основе этого кластера для заявителя будет установлен кредитный лимит.

Обзор:

  1. Метод кластеризации k-средних был разработан для определения кредитного лимита новых заявителей.
  2. Сначала были проанализированы данные, пропущенные значения были обработаны соответствующим образом, а затем был выполнен EDA с использованием графиков распределения, корреляций. Матрица корреляции была создана для фильтрации нежелательных функций (высококоррелированные атрибуты были исключены для дальнейшего исследования)
  3. Была создана тепловая карта, чтобы определить, какие атрибуты положительно или отрицательно коррелируют с общим значением потраченных карт.
  4. На основе выявленных факторов была применена кластеризация k-средних с количеством кластеров равным 6 (получено на основе метода локтя).
  5. После построения кластеризации k-средних с идентифицированным оптимальным количеством кластеров 6 мы можем вывести следующие данные:

6. Поскольку трудно визуализировать результат с помощью метода кластеризации, мы построили дерево решений, взяв кластер-Нет в качестве целевой переменной. Используя это дерево решений, можно предсказать лимит CC клиента.