Машинное обучение с учителем и без учителя

Концепции науки о данных

Разница между машинным обучением с учителем и без учителя

Как они на самом деле сравнивают

Машинное обучение способно обрабатывать множество данных. Эти данные могут быть представлены в самых разных формах: от изображений до таблиц и текста. Эти данные могут содержать много разных типов информации, таких как пароли, адреса или даже цветовые узоры. Когда дело доходит до машинного обучения, существует два разных подхода: неконтролируемое и контролируемое обучение.

На самом деле существует большая разница между двумя разными типами обучения. Различия приводят к уникальным компьютерным алгоритмам, подходящим для каждого типа обучения. Например, алгоритм машинного обучения классификации, такой как тот, который может пометить изображение как яблоко или апельсин, зарезервирован для использования в контролируемом машинном обучении. Алгоритм кластеризации, например тот, который может группировать книги по стилям их написания, зарезервирован для неконтролируемого машинного обучения.

Мы изучим различия между двумя типами машинного обучения и определим, какая форма обучения наиболее подходит для конкретного набора данных.

«Подпишитесь на Среднее членство здесь, чтобы получить неограниченный доступ и поддержку контента, подобного моему! С вашей поддержкой я зарабатываю небольшую часть членских взносов. Спасибо!"

Контролируемое обучение

Допустим, вы разрабатываете модель машинного обучения, которая способна отличить хорошие инвестиции в акции, которые вырастут в цене в ближайшем будущем, и плохие вложения в акции, которые обесцениваются в течение следующего месяца.

Традиционно вам следует обратиться за советом к финансовым консультантам, специализирующимся на инвестициях в акции. Этих финансовых консультантов научили более опытные консультанты старшего возраста, в какую компанию стоит инвестировать. Их учили, что отдельные фрагменты информации компании приводят к увеличению стоимости акций. Эти опытные консультанты наблюдали за их работой по отбору акций.

Машинное обучение с учителем работает аналогичным образом. Вы обучаете машину тому, в какие акции стоит инвестировать, вводя в алгоритм отдельные фрагменты информации о компании и маркируя эту информацию знаком хорошей инвестиции. Этот акт маркировки данных свидетельствует о контролируемом обучении. Особым типом алгоритма машинного обучения, используемого для решения этой проблемы, будет алгоритм классификации.

Сильный индикатор контролируемого обучения - это набор данных, который используется для обучения алгоритма машинного обучения. Если этот набор данных полностью помечен или идентифицирован с ответом, который вы хотите, чтобы алгоритм придумал, то велика вероятность, что вы имеете дело с алгоритмом контролируемого машинного обучения.

В случае модели машинного обучения подбора акций набор данных, с которым она, вероятно, имеет дело, содержит финансовые данные компании и указывает, приводит ли эта информация к положительному или отрицательному движению цен. Если вы хотите увидеть пример алгоритма машинного обучения подбора акций, ознакомьтесь со статьей ниже:

Я построил модель машинного обучения для торговли акциями, как Уоррен Баффет (часть 1)
Использование машинного обучения для анализа основ акций medium.com

В статье выше рассматривается разработка алгоритма машинного обучения подбора акций на основе контролируемого обучения.

Неконтролируемое обучение

Предположим, что вы хотели разработать приложение для знакомств, которое объединяет профили знакомств, чтобы улучшить процесс знакомств. Однако вы не знаете, как бы сгруппировать их в первую очередь. Должны ли они быть сгруппированы по предпочтениям пользователей или по их собственным характеристикам? Может быть, сгруппировать их по религиозным или политическим взглядам? Но, в конце концов, вы все еще не совсем уверены в том, как сформировать эти группы анкет знакомств.

Вот тут-то и появляется неконтролируемое машинное обучение. Если вы не уверены, что отличает одни фрагменты данных от других внутри большого набора данных, вы можете использовать неконтролируемое обучение. Это то, для чего используется обучение без учителя - чтобы найти корреляции и сходства между данными, которые вы не знаете, что ищете.

Как вы, наверное, догадались, в отличие от контролируемого обучения, неконтролируемое машинное обучение использует немаркированные данные. Кластеризация - это популярная форма обучения без учителя, при которой исследуются фрагменты данных, чтобы найти сходства и расхождения, чтобы объединить или сгруппировать их вместе. Что касается разработки приложения для знакомств, обучение без учителя обнаружит различия и взаимосвязи между профилями знакомств, чтобы создать группы или кластеры из этих профилей.

Если вы хотите увидеть кластеризацию в действии, ознакомьтесь со следующей статьей, в которой реализовано неконтролируемое машинное обучение для группировки профилей знакомств:

Я создал алгоритм знакомств с помощью машинного обучения и искусственного интеллекта
Использование неконтролируемого машинного обучения в приложении для знакомств в сторонуdatascience.com

Какой тип обучения лучше?

Нет лучшей формы обучения между обучением с учителем и обучением без учителя. Вам просто нужно знать, когда использовать тот или иной. Таким образом, использование любой формы обучения полностью зависит от проблемы, с которой мы сталкиваемся при разработке модели машинного обучения или набора данных, который мы будем использовать для модели.

Зависит от данных

Что касается набора данных, форма обучения, которую вы будете использовать, определяется следующим:

Помеченный набор данных = контролируемое обучение
Набор данных без метки = обучение без учителя

Если набор данных содержит метки или теги, например, набор изображений фруктов с их соответствующими названиями (яблоко, апельсин, банан и т. Д.), То мы реализуем контролируемое обучение. Затем контролируемый алгоритм машинного обучения узнает, какое изображение связано с каждым ярлыком, на основе содержания изображения.

Если набор данных не содержит никаких меток или тегов, таких как пример фруктов, но без соответствующих им имен, тогда мы реализуем обучение без учителя. Алгоритм неконтролируемого машинного обучения затем обнаружит различия и сходства между изображениями фруктов (цвет, форма, текстура и т. Д.), Чтобы сгруппировать их вместе.

Зависит от проблемы

Иногда проблема, с которой мы сталкиваемся, определяет, какую форму обучения мы будем использовать. В примерах, которые мы использовали ранее (модель выбора акций и приложение для знакомств), проблемы, с которыми мы столкнулись, определяли, какой тип обучения мы будем использовать.

Для модели выбора акций нам необходимо знать доходность акций на основе финансовой отчетности компании, независимо от того, выросла или снизилась цена акций. Эта основная истина побуждает нас использовать модель машинного обучения с учителем.

Что касается приложения для знакомств, мы не знали, как различать профили. Нет оснований полагать, что объединение профилей знакомств в кластеры не соответствует действительности. Это привело бы нас к использованию модели машинного обучения без учителя.

Закрытие

Разница между обучением без учителя и обучением с учителем весьма значительна. Модель контролируемого машинного обучения объясняется, как она должна работать, на основе меток или тегов. Модель машинного обучения без учителя предназначена только для того, чтобы выяснить, чем каждая часть данных отличается или похожа друг на друга.

Необходимость использования того или другого во многом зависит от того, есть ли у наших данных метки или теги. Это также зависит от проблемы, с которой мы сталкиваемся, и проблема обычно влияет на то, какие данные нам представлены.

В конце концов, нет какой-то более совершенной формы обучения между обучением без присмотра и под присмотром. Вам просто нужно знать, когда и где их применять.

Подписывайтесь на меня в Twitter: @_Marco_Santos_