Моя мотивация состоит в том, чтобы превратить менеджеров по закупкам в специалистов по данным и наоборот! Присоединяйся!

Глава 1 — День 1

(День новичка)

Давайте прыгать прямо! Все мы знаем, что существует 3 типа машинного обучения.

  1. )Под наблюдением: нужны данные с метками и прямая обратная связь. Полезно для прогнозирования результата. Это называется контролируемым, так как желаемый результат (метки или атрибуты) уже известен! Таким образом, когда Gmail классифицирует электронную почту как спам или не спам, он использует методы контролируемого обучения. В контролируемом машинном обучении есть две подкатегории:

a.) Классификация: или/или варианты (спам/не спам, правда/неправда и т. д.)

b.) Регрессия.Результат — это непрерывная величина. (Помните линейную алгебру? y=mx+c)

2.) Неконтролируемый: одинаково хорошо работает с немаркированными данными, не требует обратной связи, полезен для поиска скрытых шаблонов и структур в наборах данных.

3. ) Усиление: мне больше всего нравится! Работает по системе, основанной на решениях и вознаграждениях (некоторые называют ее базовой системой ударов и испытаний). Он учится на серии действий.

Классификация для прогнозирования ярлыков

Цель здесь состоит в том, чтобы предсказать категорию меток классов новых наборов данных на основе прошлых наблюдений. В типичном примере задачи бинарной классификации алгоритм машинного обучения изучает набор правил, чтобы различать два возможных результата: спам или не спам.

Однако вариантов может быть больше двух. Таким образом, это не должно быть двоичным. Это называется мультиклассовой классификацией.

Регрессия для прогнозирования непрерывных результатов

В регрессии нам дается ряд предикторов (объяснительных) переменных и непрерывная переменная ответа (результат или цель). Мы пытаемся найти взаимосвязь между этими двумя переменными, которая позволяет нам предсказать результат.

Например, у нас могут быть данные о цене дома, местоположении и его размере. Затем мы можем использовать линейную регрессию, чтобы узнать, что цена дома увеличивается в зависимости от размера и того, насколько премиальным является местоположение.

Предикторная (пояснительная) переменная: x

Переменная ответа (результат или цель) y

Мы пытаемся подобрать прямую линию и попытаться минимизировать среднеквадратичную ошибку между нанесенными на график точками на линии регрессии.

Неконтролируемое обучение

При обучении без учителя мы имеем дело с немаркированными данными или данными неизвестной структуры. Используя методы неконтролируемого обучения, мы можем исследовать структуру наших данных, чтобы извлечь значимую информацию без руководства переменной ответа (результат, y).

Одним из таких методов является кластеризация.

Кластеризация – это метод исследовательского анализа данных, который позволяет нам организовывать любую информацию в смысловые подгруппы (кластеры), не зная заранее об их взаимосвязях. Каждый кластер представляет собой группу объектов, имеющих определенную степень сходства друг с другом.

Пример: это позволяет маркетологам находить группы клиентов на основе их интересов.

Обучение с подкреплением

Целью обучения с подкреплением является разработка системы (АГЕНТ), которая улучшает свою работу на основе взаимодействия с средой. текущее состояние среды обычно также включает в себя поощрительный сигнал. Обратная связь или (результат предпринятого действия) не является окончательным (или, другими словами, это не фактическое значение), а является мерой того, насколько хорошо было выполнено действие.

За каждое правильное действие функция вознаграждения дает положительное вознаграждение.

За каждое неправильное действие функция вознаграждения налагает штраф.

В целом, цель алгоритма состоит в том, чтобы максимизировать положительное вознаграждение за счет пробного подхода. Иногда это также называется совещательным планированием.

Прекрасным примером обучения с подкреплением является движок Chess. Здесь агент выбирает серию ходов в зависимости от состояния доски (среды), а награда может быть определена как выигрыш или проиграть в конце игры.

Результат каждого хода можно рассматривать как другое состояние окружающей среды.

Во второй день мы рассмотрим

Уменьшение размерности

Введение в основную терминологию

Дорожная карта для создания систем машинного обучения

Некоторые полезные пакеты Python

Увидимся завтра!

Глава 1. Ссылка на день 2: https://medium.com/@gauravsharma_14869/procurement-innovation-with-machine-learning-23a7576cc152

Примечание. В этой серии я использую книгу по машинному обучению Python, написанную Себастьяном Пашкой и Вахидом Мирджалили.