Публикации по теме 'clustering'
Quikc GuИспользование KMeans для кластеризации демографических данных клиентов в Python
KMeans — это популярный алгоритм кластеризации, используемый для группировки точек данных на основе их сходства. В этом руководстве мы будем использовать KMeans для кластеризации демографических данных клиентов с использованием соответствующего набора данных.
Скачать набор данных
Вы можете загрузить набор данных Mall_Customers.csv из различных онлайн-источников. Один из вариантов — перейти по этой ссылке и нажать кнопку Загрузить , чтобы загрузить набор данных.
Шаг 1: Импорт..
Неконтролируемое машинное обучение для сегментации клиентов
Практический пример машинного обучения
Ирэн Риверо (01.13.2023)
Этот проект посвящен созданию алгоритма неконтролируемого машинного обучения K-mean в Scikit-Learn для выполнения сегментации клиентов. Мы выполним следующие задачи:
Понять постановку проблемы и бизнес-кейс Импорт библиотек и наборов данных Визуализируйте и исследуйте наборы данных Используйте библиотеку Scikit-Learn, чтобы найти оптимальное количество кластеров с помощью метода локтя. Применение k-средних с..
Кластеризация: кластеризация DBSCAN
Метод кластеризации на основе плотности, который обрабатывает шум и представляет кластеры несферической формы.
DBSCAN: приложение пространственной кластеризации на основе плотности с шумом.
Иерархическая кластеризация и кластеризация K-средних не могут идентифицировать выбросы. DBScan может идентифицировать выбросы.
Терминология:
Эпсилон — Радиус круга min_sample основная точка Пограничный пункт Точка шума
Epsilon — Радиус круга вокруг точки данных, значение эпсилон..
Группирование звездных отелей в Индонезии с помощью кластерного анализа K-средних (применяется в R)
Кластеризация - это широкий набор методов для поиска подгрупп наблюдений в наборе данных. Когда мы группируем наблюдения, мы хотим, чтобы наблюдения в одной группе были похожими, а наблюдения в разных группах - разными. Поскольку нет переменной ответа, это неконтролируемый метод, что означает, что он пытается найти отношения между nn наблюдениями без обучения с помощью переменной ответа. Кластеризация позволяет нам определить, какие наблюдения похожи, и потенциально распределить их по..
Автоматическая кластеризация тем с использованием Doc2Vec
«Представьте, что вы менеджер большой компании и хотите сохранить данные о своих клиентах в надежном месте. Это означает, что вы должны быть в курсе текущих тенденций и угроз в области кибербезопасности. Однако ситуация с кибербезопасностью развивается очень быстро, поэтому оставаться в курсе событий сложно ».
Это было начало питча, который мы сделали на хакатоне HackDelft в минувшие выходные. Целью нашего проекта было создать новый способ представить тренды кибербезопасности..
Анализ площадок в пригородах Йоханнесбурга с помощью машинного обучения
1. Введение
Йоханнесбург, неофициально известный как Йози, Йобург или «Золотой город», является крупнейшим городом в Южной Африке и одним из 50 крупнейших городских районов мира¹. Это столица провинции и крупнейший город Гаутенга, самой богатой провинции Южной Африки. Йоханнесбург является резиденцией Конституционного суда, высшей судебной инстанции в Южной Африке. Город расположен в горной цепи Витватерсранд, богатой полезными ископаемыми, и является центром крупномасштабной..
Кластеризация K-средних: как это работает и поиск оптимального количества кластеров в данных
Математическая формулировка, Нахождение оптимального количества кластеров и рабочий пример на Python
Вступление
K-means - один из наиболее широко используемых методов неконтролируемой кластеризации.
Алгоритм K-средних группирует имеющиеся данные, пытаясь разделить выборки на K групп с равной дисперсией, сводя к минимуму критерий, известный как инерция или сумма квадратов внутри кластера . Этот алгоритм требует указания количества кластеров . Он хорошо масштабируется..