Заметки Coursera по машинному обучению - неделя 3, переоснащение и упорядочение. Часть II

Заметки о курсе Coursera Машинное обучение, проведенном Эндрю Нг, адъюнкт-профессором Стэнфордского университета.

После обучения мы получаем хорошую модель. Если мы применим его к определенным проблемам, мы можем получить или не получить хорошую производительность. Это вопрос, который мы собираемся обсудить сегодня - почему производительность хорошей модели ужасна?

Давайте сначала подумаем - какая модель хорошая?

В предыдущем примечании определение «хорошей» модели - это модель с наименьшей ошибкой обучения. Сначала определите функцию гипотезы H (т.е. модель). Во-вторых, определите функцию стоимости J (θ) для измерения ошибок. В-третьих, изучите параметры H, уменьшив до минимума J (θ). В конце концов, мы можем получить изученную модель с наименьшими ошибками обучения. В крайнем случае эта «хорошая» модель имеет нулевую ошибку обучения и идеально подходит для обучающих данных, то есть прогнозируемая метка всех обучающих данных совпадает с их соответствующей меткой истинности.

На примере линейной регрессии модель идеально подходит для всех обучающих данных (красные точки).

Однако, когда поступают новые данные (зеленая точка), эта модель показывает ужасную производительность с огромной ошибкой прогноза.

Проблема здесь называется переобучением. По-настоящему хорошая модель должна иметь как небольшую ошибку обучения, так и небольшую ошибку прогнозирования.

Переоснащение

Выученная модель хорошо работает для данных обучения, но ужасна для данных тестирования (неизвестные данные). Другими словами, модель имеет небольшую ошибку обучения, но большую ошибку потери.

Если у нас есть полный набор данных, охватывающий все возможности проблемы, нам не нужно беспокоиться о переобучении. Когда поступают новые данные, они должны попадать в одну возможность, следовательно, модель может идеально их предсказать.

Например, предположим, что у нас есть обучающий набор данных, который фиксирует все точки на линии, а также получает идеальную модель h (x) с нулевой ошибкой обучения. Всякий раз, когда поступают новые данные, они должны быть одной из точек, следовательно, ошибка прогноза должна быть равна нулю. В этом особом случае переоснащение не проблема.

К сожалению, обучающие данные, которые мы получаем в действительности, обычно составляют небольшую часть всего набора данных. Следовательно, даже если модель идеально соответствует этим обучающим данным, она все равно не является хорошей моделью, и должно произойти переоснащение.

Когда происходит переобучение, мы получаем слишком сложную модель со слишком большим количеством функций. Один из способов избежать этого - применить регуляризацию, и тогда мы сможем получить лучшую модель с соответствующими функциями.

Регуляризация

Это метод, применяемый к функции затрат J (θ), чтобы избежать переобучения.

Основная идея регуляризации - сохранить более важные функции и игнорировать несущественные. Важность функции измеряется значением ее параметра θj.

В линейной регрессии мы модифицируем ее функцию стоимости, добавляя член регуляризации. Значение θj контролируется параметром регуляризации λ. Обратите внимание, что m - количество данных, а n - количество функций (параметры.

Например, если мы хотим получить лучшую модель вместо переоборудованной. Очевидно, нам не нужны функции X³ и X⁴, поскольку они не важны. Процедура описана ниже.

Сначала мы модифицируем функцию затрат J (θ), добавляя регуляризацию. Во-вторых, примените градиентный спуск, чтобы минимизировать J (θ) и получить значения θ3 и θ4. После процедуры минимизации значения θ3 и θ4 должны быть близки к к нулю, если λ = 1000.

Помните, что значение J (θ) представляет ошибку обучения, и это значение должно быть положительным (≥0). Параметр λ = 1000 оказывает значительное влияние на J (θ), следовательно, θ3 и θ4 должны быть близки к нулю (например, 0,000001), чтобы исключить значение ошибки.

Параметр регуляризации λ

Если λ слишком велико, тогда все значения θ могут быть близки к нулю, и это может вызвать недостаточное соответствие. Другими словами, эта модель имеет как большую ошибку обучения, так и большую ошибку предсказания. (Обратите внимание, что срок регуляризации начинается с θ1)
Если λ равно нулю или слишком мало, его влияние на параметры θ будет незначительным. Это может вызвать переоснащение.

Подводя итог, можно сказать, что использование регуляризации дает два преимущества.

Ошибка предсказания регуляризованной модели меньше, то есть она хорошо работает при тестировании данных (зеленые точки).
Модель регуляризации проще, поскольку в ней меньше функций (параметров).

До сих пор мы обсуждали концепцию регуляризации. Далее мы покажем, как минимизировать регуляризованную функцию стоимости с помощью градиентного спуска.

Напомним: градиентный спуск

Регуляризованная линейная регрессия

Если вы не знакомы с линейной регрессией, см. Здесь.

Регулярная логистическая регрессия

Если вы не знакомы с логистической регрессией, см. Здесь.

На следующей неделе мы собираемся представить популярную тему - Нейронная сеть, многочисленные архитектуры нейронных сетей были разработаны и широко применяются в приложениях.

Спасибо, что прочитали, и, если вам это нравится, поставьте мне. Любые отзывы, мысли, комментарии, предложения или вопросы приветствуются!