Введение в машинное обучение

Одни из самых важных вопросов, которые мы в первую очередь задаем по любой теме: Что? Почему ? Как ?. Вы найдете множество платных курсов по машинному обучению. Здесь я создам полную серию блогов по машинному обучению после глубокого обучения и искусственного интеллекта. Итак, давайте начнем с основного вопроса любой темы. Что это ?

“ Компьютер можно было бы назвать разумным, если бы он мог обмануть человека, заставив его поверить в то, что он человек “ — Алан Тьюринг

Что такое машинное обучение?

Машинное обучение — это ветвь науки, которая занимается программированием системы таким образом, чтобы они автоматически обучались и совершенствовались с опытом.

Проще говоря, подумайте о любой задаче, которую выполняет человек, например, о расстановке стола или полки. Сначала думаем, насколько хорошо они выглядят. но через какое-то время мы организуем его в соответствии с тем, как часто мы используем вещи на полке. Например, мы кладем книгу, которую читаем, в место, к которому легко получить доступ, а не за кучу книг с хорошей титульной страницей. Это делается, когда вы наберетесь опыта и придете к выводу, что доступность важнее внешнего вида при размещении книг.

Точно так же в машинном обучении мы используем данные для получения опыта (опыт в машинном обучении может быть таким же простым, как изменение значения нескольких переменных в формуле с использованием данных).

Обучение означает распознавание и понимание входных данных и принятие разумных решений на основе предоставленных данных. Алгоритм строит знания из конкретных данных и прошлого опыта с помощью принципов статистики, теории вероятностей, обучения с подкреплением и т. д.

Каковы две широкие категории задач машинного обучения?

1. Контролируемое обучение

2. Неконтролируемое обучение

Контролируемое обучение

Обучение с учителем — это когда у вас есть входные переменные ( x ) и выходная переменная (y ), и вы используете алгоритм для изучения функции отображения от входа к выходу.

y= f(x)

Цель состоит в том, чтобы аппроксимировать функцию отображения так хорошо, чтобы при наличии новых входных данных (x) можно было предсказать выходную переменную (y) на основе этих данных.

При контролируемом обучении модель обучается на помеченном наборе данных. Помеченный набор данных — это набор данных, который имеет как входные, так и выходные параметры.

Это называется обучением с учителем, потому что процесс обучения алгоритма на наборе обучающих данных можно рассматривать как учитель, контролирующий процесс обучения.

Алгоритм итеративно делает прогноз на наборе обучающих данных и корректируется учителем (правильный ответ).

В основном существует два типа контролируемого обучения

Классификация
Регрессия

1. Классификация

Основная цель классификации — предсказать целевой класс (Да/Нет), (Истина/Ложь), (животное/человек)

Эти алгоритмы используются, когда значение целевой выходной переменной дискретно, как { Да | Нет }

Двоичная или биномиальная классификация – это задача классификации элементов заданного набора на две группы на основе правила классификации.

Мультиклассовая или мультиномиальная классификация — это проблема классификации экземпляров в один из трех или более классов.

Пример: классификация электронной почты для прогнозирования, является ли электронная почта спамом или нет.

2. Регрессия

Регрессия — это метод прогнозирования значения зависимой переменной как функции одной или нескольких независимых переменных при наличии случайной ошибки.

Проще говоря, регрессия используется для прогнозирования непрерывных значений. Это статистические процессы для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными.

Пример: прогнозирование цен на жилье в определенном районе.

Неконтролируемое обучение

Неконтролируемое обучение — это когда у вас есть только входные данные ( x ) и нет соответствующей выходной переменной.

Цель неконтролируемого обучения — смоделировать базовую структуру или распределение данных, чтобы узнать больше о данных.

Это называется обучением без учителя, потому что, в отличие от обучения с учителем, здесь нет помеченных данных, что означает отсутствие правильного ответа или отсутствие учителя.

Проблемы обучения без учителя можно разделить на две части.

Кластеризация
Анализ правил ассоциации

1. Кластеризация

Проблема кластеризации заключается в том, что вы хотите обнаружить неотъемлемую группировку данных, например группировку клиентов по покупательскому поведению.

Проще говоря, кластерный анализ или кластеризация — это задача группировки набора объектов таким образом, чтобы объекты в одной группе были более похожи друг на друга, чем на объекты в других группах.

Пример. Предположим, у вас есть данные обо всех продажах товаров в вашем магазине, и вы хотите назначить приоритет покупателю, чтобы увеличить продажи, предоставляя предложения в соответствии с приоритетом. вы можете использовать алгоритмы кластеризации для создания кластера людей и соответствующего назначения приоритета.

2. Анализ правил ассоциации

Проблема изучения ассоциативных правил заключается в том, что вы хотите обнаружить правила, которые описывают большие части ваших данных, например, люди, которые покупают X, также склонны покупать Y.

Изучение ассоциативных правил — это основанный на правилах метод машинного обучения для обнаружения интересных отношений между переменными в больших базах данных.

Пример: анализ потребительской корзины — используется для определения местоположения товаров в магазине. Например, если кто-то покупает пакет молока, он одновременно покупает и хлеб.

Мы углубимся в детали объяснения каждого алгоритма и задачи Блог за Блогом.

Теперь давайте перейдем ко второму важному вопросу…

Почему машинное обучение?

Большинство из нас знают ответ на этот вопрос. Я тоже постараюсь примерить. У людей в большинстве случаев есть много вещей, на которых нужно сосредоточиться. А теперь представьте, если бы мы были созданы для выполнения одной и только одной задачи, и если бы мы могли выполнять эту задачу без перерыва или отдыха.

С помощью машинного обучения мы можем сосредоточиться на одной задаче с большей точностью, чем человеку, и машина не нуждается в отдыхе или перерывах. Машинное обучение — это способ уменьшить человеческие усилия.

Некоторые из задач очень сложны для человеческого разума, а некоторые просты, но требуют времени. Пример взять простой расчет, но с большим числом. Лучшему из лучших все равно потребуется несколько секунд. Но для машины 1 секунда подобна вечности в зависимости от вычислительной мощности машины.

Основные причины заключаются в том, что машина быстрее, машине не нужен отдых, и если у нас есть ресурсы, чтобы заставить машину выполнять нашу деятельность, мы могли бы сосредоточиться на гораздо более важной проблеме в мире.

Этому утверждению есть много причин. Укажите некоторые из ваших причин в разделе комментариев.

Последний вопрос

Как это работает ?

Я создам серию блогов, в которых постараюсь объяснить большинство моделей машинного обучения, способы их реализации в Python и принцип работы алгоритма. Оставайтесь с нами…

Первоначально опубликовано на https://www.stuffbyyc.com 15 марта 2020 г.