Ссылка на код Kaggle для справки: https://www.kaggle.com/code/karanp/uncovering-the-secret-to-customer-retention/notebook?scriptVersionId=124219418

Добро пожаловать в мир электронной коммерции, где борьба за удержание клиентов является более конкурентной, чем когда-либо. Представьте себе: вы вложили свое сердце и душу в создание интернет-магазина, привлечение клиентов и увеличение продаж. Но так же быстро, как клиенты пришли, они начинают исчезать. Вам остается только гадать, что пошло не так, и как вы можете предотвратить повторение этого.

Реальность такова, что удержание клиентов — это проблема, с которой сталкиваются многие предприятия электронной коммерции. На самом деле, согласно исследованиям, средний показатель удержания клиентов в интернет-магазине составляет всего 32%. Это шокирующая статистика, учитывая усилия и инвестиции, которые в первую очередь идут на привлечение этих клиентов.

Но что, если бы был способ определить, какие клиенты рискуют уйти, чтобы вы могли принять меры для их вовлечения? Вот где вступает в действие анализ риска оттока.

Анализ риска оттока — это мощный инструмент, который может помочь вам предсказать, какие клиенты могут уйти, основываясь на их поведении и истории покупок. Это похоже на хрустальный шар, который позволяет вам заглянуть в будущее, чтобы вы могли принять меры, чтобы предотвратить отток клиентов до того, как это произойдет.

В этой статье мы углубимся в реальный набор данных электронной коммерции, чтобы изучить, как работает анализ риска оттока и какие выводы можно извлечь из него.

Но это не все. Мы также рассмотрим неожиданные факторы, способствующие оттоку клиентов, такие как положительный опыт обслуживания клиентов и отсутствие вовлеченности. И я дам вам действенные рекомендации по сокращению оттока и улучшению удержания клиентов.

Но не верьте мне на слово. Я хочу услышать от вас! Поделитесь своим опытом анализа оттока клиентов и рисков оттока в комментариях ниже. И продолжайте читать для более глубокого анализа и понимания.

Понимание набора данных электронной торговли

Чтобы провести анализ риска оттока, мы использовали набор данных вымышленной компании электронной коммерции, которую можно найти здесь, которая продает различные продукты в Интернете. Набор данных включает информацию о более чем 36 000 клиентов.

Перед проведением анализа мы предприняли несколько шагов по очистке и предварительной обработке данных. Это включало удаление повторяющихся записей, работу с отсутствующими значениями с использованием различных методов (LOL… Это может быть отдельная статья) и преобразование переменных в соответствующие форматы. Набор данных был сокращен примерно до 30 000 клиентов после процесса очистки данных.

Набор данных содержит множество функций и переменных, которые имеют отношение к нашему анализу. Например, у нас есть данные о демографии клиентов, такие как возраст, пол и местонахождение, а также информация об их истории покупок и информация об их поведении в Интернете.

Используя эту информацию, мы можем получить ценную информацию о том, какие клиенты, скорее всего, уйдут, и какие факторы влияют на их вероятность этого. В следующем разделе мы углубимся в метрики и расчеты, используемые в нашем анализе риска оттока.

Понимание данных

Теперь, когда мы лучше понимаем набор данных электронной коммерции, давайте подробнее рассмотрим сами данные. Для начала мы создали несколько визуализаций, чтобы лучше понять характеристики и поведение клиентов в наборе данных.

Первая визуализация, которую мы создали, показывает количество клиентов для каждой оценки риска оттока.

Как видно из диаграммы, большинство клиентов относятся к категории риска оттока от среднего до высокого, и лишь небольшая часть попадает в категорию с низким риском оттока.

Эта информация важна, поскольку помогает нам понять общее распределение оценок риска оттока среди нашей клиентской базы. Зная, сколько клиентов попадает в каждую категорию, мы можем лучше сосредоточить свои усилия на удержании тех, кто больше всего рискует уйти.

Кроме того, мы можем использовать эту информацию для отслеживания изменений показателей риска оттока с течением времени. Например, если мы заметим увеличение числа клиентов, переходящих в категорию с высоким риском оттока, нам может потребоваться скорректировать наши стратегии удержания, чтобы справиться с этой тенденцией.

Демография клиентов

Вторая визуализация, которую мы создали, показывает гендерное распределение оценок риска оттока среди нашей клиентской базы. Эта информация важна, поскольку помогает нам понять, как пол может повлиять на вероятность оттока клиента. Выявляя любые гендерные тенденции риска оттока, мы можем адаптировать наши стратегии удержания, чтобы лучше удовлетворить потребности каждого пола.

Как видно из диаграммы, процент мужчин и женщин практически одинаков во всех оценках риска оттока.

Третья визуализация, которую мы создали, представляет собой гистограмму с накоплением, которая показывает общее количество клиентов по возрасту и оценке риска оттока. Из диаграммы видно, что, за исключением возрастной группы 60–69 лет, абсолютная ценность клиентов отличается от других возрастных групп. Сказав это, эта группа также следует тем же пропорциям, что и другие.

Четвертая визуализация — это общее количество по категориям регионов и оценка риска оттока, которые следуют той же тенденции, что и предыдущие функции. Так что это не существенный фактор, влияющий на риск оттока клиента.

Пятая визуализация, которую мы создали, представляет собой гистограмму с накоплением, которая показывает общее количество клиентов по категориям членства и оценку риска оттока. Интересно, что клиенты с самыми высокими показателями риска оттока — это те, кто имеет базовое членство и не имеет членства, что указывает на то, что более низкий статус членства означает, что они менее лояльны к нашему бренду. Эта визуализация подчеркивает важность понимания поведения наших различных категорий участников для разработки целевых стратегий удержания.

Шестая визуализация, которую мы создали, представляет собой гистограмму с накоплением, которая показывает общее количество клиентов по отзывам и оценку риска оттока. Интересно, что клиенты, оставившие негативные отзывы, имеют самые высокие оценки риска оттока, что указывает на то, что они с большей вероятностью прекратят отношения с нашим брендом. Это говорит о том, что нам нужно уделять больше внимания клиентам, оставившим негативные отзывы, и принимать меры для решения их проблем. Мы также видим, что клиенты, оставившие положительные отзывы, имеют самые низкие оценки риска оттока, что подчеркивает важность обеспечения превосходного качества обслуживания клиентов. В целом, эта визуализация подчеркивает важность того, чтобы прислушиваться к нашим клиентам и учитывать их отзывы для улучшения наших усилий по удержанию клиентов.

В выходных данных отображается дата присоединения и средний показатель риска оттока на эту дату. Мы видим, что средний показатель риска оттока меняется со временем, при этом некоторые даты имеют более высокий средний показатель риска оттока, чем другие.

Этот EDA исследует взаимосвязь между средней оценкой риска оттока и количеством дней с момента последнего входа клиента. Вывод показывает среднюю оценку риска оттока за каждый день с момента последнего входа клиента. Это может помочь определить, существует ли корреляция между уровнем активности клиента на платформе и вероятностью его ухода.

Здесь мы можем наблюдать небольшую тенденцию к повышению средней оценки риска оттока по мере увеличения количества дней с момента последнего входа в систему. Это говорит о том, что клиенты, которые не входили в систему какое-то время, с большей вероятностью уйдут, чем те, кто недавно вошел в систему.

Анализ и интерпретация

Основываясь на этих окончательных функциях, давайте запустим кластеризацию, чтобы посмотреть, сможем ли мы сегментировать клиентов, чтобы предоставить лучшие предложения и порекомендовать целевые маркетинговые стратегии для этих конкретных групп.

Здесь метод кластеризации — KMeans используется для создания сегментации выбранных функций. Первым шагом является определение оптимального количества кластеров для правильной сегментации данных.

График локтя предполагает, что оптимальное количество кластеров в этом наборе данных равно 3. SSE уменьшается по мере увеличения количества кластеров, но скорость уменьшения замедляется примерно при K = 3. Это указывает на то, что добавление большего количества кластеров сверх 3 может незначительно улучшить производительность кластеризации. Выполнение Kmeans для данных дает следующую оценку производительности.

Оценка силуэта измеряет качество кластеризации со значениями в диапазоне от -1 до 1. В этом примере оценка силуэта для K = 3 составляет 0,625, что является высоким показателем. Как правило, более высокие оценки силуэта указывают на лучшую производительность кластеризации, но также важно учитывать другие факторы, такие как интерпретируемость и знание предметной области.

Давайте посмотрим статистику по этим кластерам.

Приведенная выше диаграмма показывает распределение клиентов на каждой диаграмме, эта визуализация дает хорошее представление о том, каково влияние каждого кластера с точки зрения того, сколько участников (клиентов) находится в каждом кластере. Приведенная выше визуализация ясно показывает, что кластеры 1 и 2 имеют самую большую клиентскую базу, в то время как кластер 0 почти в 2 раза ниже, чем эти 2.

Теперь давайте визуализируем эти кластеры с точки зрения риска оттока, который означает каждая группа кластеров.

Приведенная выше диаграмма ясно показывает, что кластеры 1 и 2 имеют клиентскую базу, которая с наибольшей вероятностью будет уходить, имея оценку риска оттока от 3 до 5. В то время как у кластера 0 вероятность оттока меньше всего, поскольку большинство населения попадает в оценку риска 1 и 2.

Чистота — это мера того, насколько хорошо алгоритм кластеризации сгруппировал данные на основе их истинных меток. Как правило, оценка чистоты 0,36 указывает на то, что алгоритм не очень хорошо сгруппировал данные на основе их истинных меток, но это также зависит от проблемы, которую вы пытаетесь решить. В нашем случае это дает нам хорошее разделение между клиентами, которые с меньшей вероятностью уйдут (churn_risk_score — 1, 2), и группой клиентов, которые с большей вероятностью уйдут (chur_risk_score — 3, 4, 5). Следовательно, для текущего варианта использования алгоритм кластеризации довольно хорошо справился с идентификацией сегрегации.

Основываясь на этих кластерах (группах клиентов), давайте проанализируем особенности каждой из них, и ниже были представлены преобладающие функции, определяющие группы кластеров.

Кластер 0: "Большие траты"

- Этот сегмент имеет самый высокий статус членства и стоимость транзакций, что указывает на то, что они являются клиентами с высокой ценностью. У них также самое высокое среднее время и частота входов в систему, что указывает на то, что они активно взаимодействуют с компанией. Однако у них самый низкий процент клиентов с прошлыми жалобами, что указывает на то, что они с меньшей вероятностью оставят отзыв и могут быть подвержены риску оттока, если столкнутся с проблемой.

- Они также, как правило, предпочитают подарочные сертификаты и ценят качественное обслуживание клиентов и постоянное наличие товара на складе.

Кластер 1: "Неустойчивая группа"

- В этом сегменте самый высокий процент клиентов, у которых в прошлом не было жалоб, и более высокий статус членства, чем у первого клиента. Эти клиенты очень похожи на первую группу клиентов с точки зрения времени, проводимого на сайте, частоты посещений и покупательских привычек. Разница заключается в том, что эти клиенты принимают поспешные решения покинуть сайт всего лишь из-за одного плохого отзыва.

- Клиенты в сегменте зарегистрировали жалобу, как и первая группа, и все они связаны с качеством

- Функции в этом сегменте также означают, что они не очень вовлечены в работу с платформой, в большинстве случаев они не имеют членства.

Группа 2: "Жалобщики"

- В этом сегменте самый высокий процент клиентов, подавших жалобы в прошлом, и высокий процент клиентов, чьи жалобы были решены. У них также низкий статус членства и низкая стоимость транзакций, что указывает на то, что они могут быть недовольны получаемыми ими услугами.

- Функции в этом сегменте также означают, что они не очень вовлечены в работу с платформой, в большинстве случаев они не имеют членства.

Основываясь на этих характеристиках, ниже предлагаются маркетинговые стратегии.

Общие стратегии:

Компания должна сосредоточить свои стратегии на основе предоставленных кластеров. В основном они должны сосредоточиться на предоставлении качественного обслуживания клиентов, а также на предоставлении персонализированных стимулов для каждой группы. Они также должны сосредоточиться на попытках получить кластеры 0 и 2 в соглашение о членстве. Исследования показали, что клиенты, заключившие соглашение о членстве, с меньшей вероятностью уйдут.

Заключение

Когда мы завершаем наш анализ риска оттока клиентов в индустрии электронной коммерции, становится ясно, что предприятия больше не могут позволить себе применять универсальный подход к удержанию клиентов. Используя методы, основанные на данных, такие как разработка функций и кластеризация, компании могут получить более детальное представление о своей клиентской базе и адаптировать свои стратегии удержания к различным сегментам.

Но это только начало. Поскольку среда электронной коммерции продолжает развиваться и становится все более конкурентоспособной, предприятия должны быть готовы постоянно повторять и улучшать свои стратегии удержания, чтобы оставаться на шаг впереди.

Итак, продолжим разговор. Какие самые инновационные подходы, которые вы видели в индустрии электронной коммерции для снижения риска оттока? Поделитесь своими мыслями и опытом в комментариях ниже, и давайте вместе построим будущее электронной коммерции, более ориентированное на клиента.