Заметки о курсе Coursera Машинное обучение, проведенном Эндрю Нг, адъюнкт-профессором Стэнфордского университета.

После обучения мы получаем хорошую модель. Если мы применим его к определенным проблемам, мы можем получить или не получить хорошую производительность. Это вопрос, который мы собираемся обсудить сегодня - почему производительность хорошей модели ужасна?

Давайте сначала подумаем - какая модель хорошая?

В предыдущем примечании определение «хорошей» модели - это модель с наименьшей ошибкой обучения. Сначала определите функцию гипотезы H (т.е. модель). Во-вторых, определите функцию стоимости J (θ) для измерения ошибок. В-третьих, изучите параметры H, уменьшив до минимума J (θ). В конце концов, мы можем получить изученную модель с наименьшими ошибками обучения. В крайнем случае эта «хорошая» модель имеет нулевую ошибку обучения и идеально подходит для обучающих данных, то есть прогнозируемая метка всех обучающих данных совпадает с их соответствующей меткой истинности.

На примере линейной регрессии модель идеально подходит для всех обучающих данных (красные точки).

Однако, когда поступают новые данные (зеленая точка), эта модель показывает ужасную производительность с огромной ошибкой прогноза.

Проблема здесь называется переобучением. По-настоящему хорошая модель должна иметь как небольшую ошибку обучения, так и небольшую ошибку прогнозирования.

Переоснащение

Выученная модель хорошо работает для данных обучения, но ужасна для данных тестирования (неизвестные данные). Другими словами, модель имеет небольшую ошибку обучения, но большую ошибку потери.

Если у нас есть полный набор данных, охватывающий все возможности проблемы, нам не нужно беспокоиться о переобучении. Когда поступают новые данные, они должны попадать в одну возможность, следовательно, модель может идеально их предсказать.

Например, предположим, что у нас есть обучающий набор данных, который фиксирует все точки на линии, а также получает идеальную модель h (x) с нулевой ошибкой обучения. Всякий раз, когда поступают новые данные, они должны быть одной из точек, следовательно, ошибка прогноза должна быть равна нулю. В этом особом случае переоснащение не проблема.

К сожалению, обучающие данные, которые мы получаем в действительности, обычно составляют небольшую часть всего набора данных. Следовательно, даже если модель идеально соответствует этим обучающим данным, она все равно не является хорошей моделью, и должно произойти переоснащение.

Когда происходит переобучение, мы получаем слишком сложную модель со слишком большим количеством функций. Один из способов избежать этого - применить регуляризацию, и тогда мы сможем получить лучшую модель с соответствующими функциями.

Регуляризация

Это метод, применяемый к функции затрат J (θ), чтобы избежать переобучения.

Основная идея регуляризации - сохранить более важные функции и игнорировать несущественные. Важность функции измеряется значением ее параметра θj.

В линейной регрессии мы модифицируем ее функцию стоимости, добавляя член регуляризации. Значение θj контролируется параметром регуляризации λ. Обратите внимание, что m - количество данных, а n - количество функций (параметры.

Например, если мы хотим получить лучшую модель вместо переоборудованной. Очевидно, нам не нужны функции X³ и X⁴, поскольку они не важны. Процедура описана ниже.

Сначала мы модифицируем функцию затрат J (θ), добавляя регуляризацию. Во-вторых, примените градиентный спуск, чтобы минимизировать J (θ) и получить значения θ3 и θ4. После процедуры минимизации значения θ3 и θ4 должны быть близки к к нулю, если λ = 1000.

Помните, что значение J (θ) представляет ошибку обучения, и это значение должно быть положительным (≥0). Параметр λ = 1000 оказывает значительное влияние на J (θ), следовательно, θ3 и θ4 должны быть близки к нулю (например, 0,000001), чтобы исключить значение ошибки.

Параметр регуляризации λ

  • Если λ слишком велико, тогда все значения θ могут быть близки к нулю, и это может вызвать недостаточное соответствие. Другими словами, эта модель имеет как большую ошибку обучения, так и большую ошибку предсказания. (Обратите внимание, что срок регуляризации начинается с θ1)
  • Если λ равно нулю или слишком мало, его влияние на параметры θ будет незначительным. Это может вызвать переоснащение.

Подводя итог, можно сказать, что использование регуляризации дает два преимущества.

  • Ошибка предсказания регуляризованной модели меньше, то есть она хорошо работает при тестировании данных (зеленые точки).
  • Модель регуляризации проще, поскольку в ней меньше функций (параметров).

До сих пор мы обсуждали концепцию регуляризации. Далее мы покажем, как минимизировать регуляризованную функцию стоимости с помощью градиентного спуска.

Напомним: градиентный спуск

Регуляризованная линейная регрессия

Если вы не знакомы с линейной регрессией, см. Здесь.

Регулярная логистическая регрессия

Если вы не знакомы с логистической регрессией, см. Здесь.

На следующей неделе мы собираемся представить популярную тему - Нейронная сеть, многочисленные архитектуры нейронных сетей были разработаны и широко применяются в приложениях.

Спасибо, что прочитали, и, если вам это нравится, поставьте мне. Любые отзывы, мысли, комментарии, предложения или вопросы приветствуются!