Введение:

Машинное обучение — это область искусственного интеллекта, которая занимается разработкой алгоритмов и моделей, которые позволяют компьютерам учиться на данных без явного программирования. Модели машинного обучения можно разделить на два типа: обучение с учителем и обучение без учителя.

Обучение под наблюдением:

Обучение с учителем — это тип машинного обучения, при котором алгоритм учится на размеченных данных. Другими словами, алгоритм обучается на наборе пар вход-выход. Входные данные называются функциями, а выходные данные — метками. Алгоритм учится сопоставлять входные данные с выходными, т. Е. Он изучает функцию, которая может предсказывать выходные данные для новых входных данных.

Обучение с учителем можно разделить на два типа — классификационное и регрессионное. Классификация используется, когда выходная переменная является категориальной, т. е. принимает дискретный набор значений. Примеры проблем классификации включают обнаружение спама, анализ настроений и классификацию изображений. Регрессия, с другой стороны, используется, когда выходная переменная непрерывна, т. е. принимает диапазон значений. Примеры задач регрессии включают прогнозирование цены дома на основе его характеристик или прогнозирование температуры на основе данных о погоде.

Математически контролируемое обучение можно представить следующим образом:

Для набора данных D = {(x1, y1), (x2, y2), …, (xn, yn)}, где xi — вектор признаков, а yi — соответствующая метка, цель контролируемого обучения состоит в том, чтобы изучить функция f такая, что f(xi) = yi для всех i.

Например:

Давайте рассмотрим задачу классификации, в которой нам нужно классифицировать изображения фруктов как яблоки или бананы. У нас есть набор данных из 1000 размеченных изображений — 500 изображений яблок и 500 изображений бананов. Изображения представлены в виде изображений в градациях серого 28x28.

Первым шагом в обучении с учителем является разделение набора данных на наборы для обучения и тестирования. Мы случайным образом отбираем 80% данных для обучения и 20% для тестирования. Обучающий набор используется для обучения модели, а тестовый набор используется для оценки производительности модели.

Затем мы предварительно обрабатываем данные, нормализуя значения пикселей так, чтобы они находились в диапазоне от 0 до 1. Затем мы используем сверточную нейронную сеть (CNN) для обучения модели. CNN состоит из нескольких уровней сверток, активаций и операций объединения.

После обучения модели в течение нескольких эпох мы оцениваем ее производительность на тестовой выборке. Мы рассчитываем точность, точность, отзыв и балл F1. Точность — это процент правильно классифицированных изображений, а точность измеряет долю истинных положительных результатов среди всех положительных прогнозов. Отзыв измеряет долю истинных положительных результатов среди всех фактических положительных образцов, а показатель F1 представляет собой гармоническое среднее значение точности и отзыва.

Неконтролируемое обучение:

Неконтролируемое обучение — это тип машинного обучения, при котором алгоритм учится на немаркированных данных. В отличие от обучения с учителем, в обучении без учителя нет меток или выходных переменных. Алгоритм учится выявлять закономерности и взаимосвязи в данных.

Обучение без учителя можно разделить на два типа — кластеризация и уменьшение размерности. Кластеризация используется для группировки похожих точек данных вместе, а уменьшение размерности используется для уменьшения размерности данных без потери слишком большого количества информации.

Математически обучение без учителя можно представить следующим образом:

Для набора данных X = {x1, x2, …, xn}, где xi — вектор признаков, цель обучения без учителя состоит в том, чтобы изучить функцию f, такую, что f(X) = Y, где Y — набор кластеров или редуцированное представление X.

Например:

Давайте рассмотрим проблему кластеризации, когда нам нужно сгруппировать клиентов веб-сайта электронной коммерции на основе их истории покупок. У нас есть набор данных из 10 000 транзакций клиентов, где каждая транзакция представлена ​​вектором признаков, содержащим идентификатор клиента, идентификатор продукта, цену и количество.

Первым шагом в неконтролируемом обучении является предварительная обработка данных путем масштабирования функций и удаления любых выбросов. Затем мы используем алгоритм кластеризации k-средних для группировки похожих транзакций.

Алгоритм k-средних работает путем случайного выбора k начальных центроидов, а затем итеративно назначает каждую транзакцию ближайшему центроиду и пересчитывает центроиды. Алгоритм завершается, когда центроиды больше не меняются или после определенного количества итераций.

После кластеризации транзакций мы можем проанализировать кластеры, чтобы получить представление о поведении клиентов. Например, мы можем определить группы клиентов, которые склонны покупать похожие товары или которые склонны покупать товары в одно и то же время дня.

Заключение

Контролируемое и неконтролируемое обучение — это два основных типа машинного обучения, которые имеют разные приложения и варианты использования. Обучение с учителем используется, когда выходная переменная известна, а обучение без учителя используется, когда выходная переменная неизвестна или не имеет значения. Оба типа обучения имеют свои сильные и слабые стороны, и выбор алгоритма зависит от конкретной задачи и имеющихся данных. С ростом доступности данных и вычислительных ресурсов машинное обучение становится важным инструментом для решения сложных реальных проблем.

Будьте в курсе последних новостей и обновлений в сфере творческого ИИ — следите за публикацией Генеративный ИИ.