Мои любимые фильмы: «Темный рыцарь», «Джокер», «Шпионский мост» и
«Форрест Гамп».

Я спросил своих друзей, можете ли вы сгруппировать эти фильмы!, один из них сгруппировал в фильмы по комиксам и фильмы без комиксов, а другой сгруппировал их в фильмы с Томом Хэнксом и фильмы без Тома Хэнкса.
Хм, интересно! они правы.

Давайте посмотрим на технику, с помощью которой Машина может группировать эти фильмы.

Знаете, что такое машинное обучение? Если да, то вперед, если нет, то читайте другую мою историю.

Неконтролируемое обучение

Неконтролируемое обучение — это метод машинного обучения, который работает с немаркированными данными, т. е. данные здесь не имеют правильного ответа или предопределенного вывода.
В этом методе машине даются некоторые данные, и она использует алгоритмы, чтобы понять их и организуйте их в похожие группы.
Затем эти группы анализируются специалистами по машинному обучению, которые присваивают им ярлык, чтобы эти группы можно было позже использовать в обучении с учителем.

Существует два типа обучения без учителя
1. Кластеризация
2. Правила ассоциации

Кластеризация

Кластеризация — это тип обучения без учителя. Он организует данные в похожие группы на основе сходства. Точки данных, расположенные ближе друг к другу, объединяются в одну группу, а точки данных, находящиеся далеко друг от друга, объединяются в отдельные группы. Эти группы называются кластерами, отсюда и название кластеризация.
Рассмотрим пример, в котором нам нужно организовать следующий набор данных.

Этот образец набора данных имеет 4 строки. Когда эти данные передаются машине, она может организовать их следующим образом:

  1. Он может рассматривать Актера как наиболее важную функцию и организовывать данные в два кластера: фильмы с Томом Хэнксом и фильмы без Тома Хэнкса.
  2. Он может рассматривать жанр как наиболее важную функцию и организовывать данные в два кластера: фильмы из комиксов и фильмы не из комиксов.

Фактическая группировка зависит от алгоритмов кластеризации, и от специалиста по машинному обучению зависит, какие кластеры использовать, а какие нет.

Некоторые алгоритмы кластеризации: K-Means, DBSCAN, EM Clustering.
Примеры кластеризации: сегментация клиентов, улучшение поисковых систем, анализ ДНК

Обновление: Практическая реализация с использованием Python: Нажмите здесь

Ассоциация

Правила ассоциации - это тип обучения без учителя. Он обнаруживает шаблоны в данных, чтобы найти часто встречающиеся точки данных в наборе данных. Он также находит, какие точки данных встречаются вместе, чтобы найти взаимосвязь между ними.
Давайте рассмотрим пример анализа рыночной корзины, который является одним из самых популярных примеров в ассоциации.
Этот анализ очень полезен для людей, которые владеют розничным магазином, и они хотят выяснить, какие товары покупают люди, и установить отношения между ними.

Допустим, машине даются данные о продажах, чтобы найти взаимосвязь между различными точками данных. Выясняется, что люди часто покупают хлеб с масломилиPlayStation и игры вместе, и что розничные продавцы могут сделать, так это предложить скидки или комбинированные предложения для этих товаров, чтобы больше людей купили эти товары. не задумываясь.
Розничные продавцы также могут размещать часто покупаемые товары вместе, чтобы сделать покупку более удобной для пользователей.

Некоторые алгоритмы правил ассоциации: Apriori, Eclat, FP-Growth
Примеры правил ассоциации: анализ рыночной корзины, медицинская диагностика.

Резюме

Обучение без учителя: работает с неразмеченными данными.
Типы: кластеризация и правила ассоциации.
кластеризация: данные распределяются по разным групп.
Правила ассоциации: выявляет взаимосвязь между различными точками данных.