Оглавление:

1. Машинное обучение

2. Линейная регрессия

3. Функция стоимости

4. Градиентный спуск

Машинное обучение

Что такое машинное обучение?

Область исследования, которая дает компьютерам возможность учиться без явного программирования. (Артур Сэмюэл (1959)).

Типы машинного обучения:

· контролируемое обучение

· Неконтролируемое обучение

· Рекомендательные системы

· Обучение с подкреплением

Контролируемое обучение:

При обучении с учителем при обучении данных в модель передаются как функции, так и цели. Обучающий набор состоит как из функций, так и из целей, и после обучения модели при выполнении прогнозирования даются только входные данные, а модель прогнозирует выходные данные. В основном существует два типа обучения с учителем: регрессия и классификация.

Модель регрессии предсказывает числа, а модель классификации классифицирует категории.

Модель регрессии имеет бесконечное количество выходных данных, а модель классификации имеет конечное множество выходных данных.

Пример регрессионной модели:

Прогноз цены дома, исходя из размера дома. Здесь есть бесконечные возможные выходы, в зависимости от размера дома. Некоторые регрессионные модели машинного обучения:

Линейная регрессия

Древо решений

Случайный лесной регрессор

Опорная векторная регрессия

Пример модели классификации:

Прогнозирование того, является ли рак злокачественным или доброкачественным. Здесь есть только два возможных выхода. Некоторые модели машинного обучения классификации:

Логистическая регрессия

Древо решений

Машина опорных векторов

Наивный байесовский

K-ближайшие соседи

Неконтролируемое обучение:

В неконтролируемом обучении при обучении данных в модель передаются только функции. Обучающий набор состоит только из функций после обучения модели, при выполнении прогнозирования даются только входные данные, а модель прогнозирует выходные данные. Неконтролируемое обучение находит некоторые интересные данные в немаркированных данных. Одним из известных примеров неконтролируемого обучения является кластеризация, и Google News использует ее на своей платформе. Другим примером является обнаружение аномалий, используемое для обнаружения мошенничества с кредитными картами. Одним из важных примеров обучения без учителя является уменьшение размерности. Некоторые известные алгоритмы обучения без учителя:

Кластеризация K-средних

Анализ главных компонентов

Иерархическая кластеризация

Обнаружение аномалий

В этом курсе мы больше не говорим о рекомендательных системах и обучении с подкреплением. Если хотите, можете погуглить и разобраться в них.

Общие обозначения для описания используемых данных и уравнений:

Линейная регрессия:

Базовая модель представления линейной регрессии:

Обучающий набор (состоит из функций и целей) ==> Алгоритм обучения ==> Функция (f) (Передаются новые данные x, и они предсказывают значение y-hat.) Также называется гипотезой. Общий процесс представляет собой функцию ==> модель ==> прогноз.

Математическая формулировка или представление функции (f). Здесь мы рассматриваем f как прямую для простоты.

Здесь w и b — числа, значения, выбранные для w и b, будут определять прогноз y-hat на основе входного признака x.

У вас может возникнуть вопрос, почему мы использовали линейную функцию.

Иногда нам также нужно подобрать кривую или нелинейную, в качестве начальной базовой точки мы выбираем линейную функцию, так как ее будет легко объяснить и с ней справиться.

Давайте воспользуемся графиком, чтобы визуализировать нашу линейную функцию, которая использует пример размеров дома и цен.

Эта модель линейной регрессии также называется одномерной линейной регрессией, так как есть один признак x или размер дома.

Здесь, глядя на уравнение функции, мы можем сказать, что функция зависит от значения w и b. Их также называют коэффициентами модели или весами. В соответствии со значением w и b уравнение меняется, и лучшие значения w и b находят лучшее уравнение модели, которое идеально соответствует набору данных. Чтобы узнать значения w и b, мы используем функцию стоимости. Функция стоимости помогает найти наилучшие значения для w и b.

Функция стоимости также называется функцией квадрата ошибки, поскольку мы вычитаем фактическое значение из прогнозируемого значения и квадрата и берем их сумму из всех данных.

Уравнение функции стоимости:

Мы находим среднеквадратичную ошибку, так как, если количество обучающих примеров увеличивается, функция стоимости также увеличивается.

Мы также можем записать приведенное выше уравнение как:

Наша главная цель в модели линейной регрессии — минимизировать функцию стоимости. Чтобы минимизировать функцию стоимости, нам нужно очень тщательно выбирать значения w и b. Для достижения наилучших результатов в линейной регрессии нам нужно минимизировать функцию стоимости, а для минимизации функции стоимости нам нужно очень тщательно выбирать значения w и b.

Градиентный спуск:

В линейной регрессии у нас есть алгоритм, который автоматически находит минимальное значение для w и b и минимизирует функцию стоимости J, называемую градиентным спуском и отклонением в градиентном спуске.

Градиентный спуск — это алгоритм, используемый для минимизации любой функции.

Схема:

Сначала мы начинаем с некоторого значения w, b и продолжаем изменять w, b, чтобы уменьшить функцию стоимости, пока не остановимся на минимуме или около него.

Поскольку градиентный спуск может быть применен к любой функции для минимизации функции, в другой функции, кроме функции квадрата ошибки, может быть много локальных минимумов, и в зависимости от выбранного значения w и b локальные минимумы могут измениться.

Математические выражения для градиентного спуска.

Градиентный спуск запускается много раз и каждый раз меняет значения w и b, чтобы найти наилучшие w и b, которые минимизируют функцию стоимости. Итак, алгоритмы градиентного спуска основаны на w и b и нахождении их разных значений.

Здесь производный член функции стоимости сообщает направление и размер крутости, насколько точка расходится или сходится от первой точки.

Здесь альфа-член — это скорость обучения [обычно небольшое положительное число]

Альфа также определяет, насколько большой шаг вы делаете под уклон, применяя градиентный спуск. Если альфа очень большая, то крутой тоже очень большой, а если альфа очень маленький, то крутой тоже очень маленький.

Что такое точка схождения?

В точке локального минимума, где w и b не сильно меняются с каждым дополнительным шагом.

При обновлении значений w и b нам необходимо выполнять одновременное обновление.

Здесь мы находим как b, так и w с правильным значением, а затем обновляем основные значения на каждом шаге.

Скорость обучения или альфа-канал:

Выбор альфы оказывает огромное влияние на эффективность вашей реализации градиентного спуска.

Если альфа слишком мала, движение или шаг будут очень маленькими, это уменьшит функцию стоимости J, но очень медленно. Потребуется много шагов, а градиентный спуск может быть очень медленным.

Если альфа слишком велика, стоимость будет хуже, функция стоимости будет отдаляться от минимума и даже может не сойтись. Точнее, может расходиться.

Если вы уже находитесь в локальном минимальном градиентном спуске, w остается неизменным.

Градиентный спуск может достигать локального минимума с фиксированной скоростью обучения.

По мере приближения к локальному минимуму производная становится ближе к 0, и градиентный спуск автоматически становится меньше.

Некоторые цифры для пояснения вышеприведенных строк из слайдов Андре Нг.