Заметки о курсе Coursera Машинное обучение, проведенном Эндрю Нг, адъюнкт-профессором Стэнфордского университета.
После обучения мы получаем хорошую модель. Если мы применим его к определенным проблемам, мы можем получить или не получить хорошую производительность. Это вопрос, который мы собираемся обсудить сегодня - почему производительность хорошей модели ужасна?
Давайте сначала подумаем - какая модель хорошая?
В предыдущем примечании определение «хорошей» модели - это модель с наименьшей ошибкой обучения. Сначала определите функцию гипотезы H (т.е. модель). Во-вторых, определите функцию стоимости J (θ) для измерения ошибок. В-третьих, изучите параметры H, уменьшив до минимума J (θ). В конце концов, мы можем получить изученную модель с наименьшими ошибками обучения. В крайнем случае эта «хорошая» модель имеет нулевую ошибку обучения и идеально подходит для обучающих данных, то есть прогнозируемая метка всех обучающих данных совпадает с их соответствующей меткой истинности.
На примере линейной регрессии модель идеально подходит для всех обучающих данных (красные точки).
Однако, когда поступают новые данные (зеленая точка), эта модель показывает ужасную производительность с огромной ошибкой прогноза.
Проблема здесь называется переобучением. По-настоящему хорошая модель должна иметь как небольшую ошибку обучения, так и небольшую ошибку прогнозирования.
Переоснащение
Выученная модель хорошо работает для данных обучения, но ужасна для данных тестирования (неизвестные данные). Другими словами, модель имеет небольшую ошибку обучения, но большую ошибку потери.
Если у нас есть полный набор данных, охватывающий все возможности проблемы, нам не нужно беспокоиться о переобучении. Когда поступают новые данные, они должны попадать в одну возможность, следовательно, модель может идеально их предсказать.
Например, предположим, что у нас есть обучающий набор данных, который фиксирует все точки на линии, а также получает идеальную модель h (x) с нулевой ошибкой обучения. Всякий раз, когда поступают новые данные, они должны быть одной из точек, следовательно, ошибка прогноза должна быть равна нулю. В этом особом случае переоснащение не проблема.
К сожалению, обучающие данные, которые мы получаем в действительности, обычно составляют небольшую часть всего набора данных. Следовательно, даже если модель идеально соответствует этим обучающим данным, она все равно не является хорошей моделью, и должно произойти переоснащение.
Когда происходит переобучение, мы получаем слишком сложную модель со слишком большим количеством функций. Один из способов избежать этого - применить регуляризацию, и тогда мы сможем получить лучшую модель с соответствующими функциями.
Регуляризация
Это метод, применяемый к функции затрат J (θ), чтобы избежать переобучения.
Основная идея регуляризации - сохранить более важные функции и игнорировать несущественные. Важность функции измеряется значением ее параметра θj.
В линейной регрессии мы модифицируем ее функцию стоимости, добавляя член регуляризации. Значение θj контролируется параметром регуляризации λ. Обратите внимание, что m - количество данных, а n - количество функций (параметры.
Например, если мы хотим получить лучшую модель вместо переоборудованной. Очевидно, нам не нужны функции X³ и X⁴, поскольку они не важны. Процедура описана ниже.
Сначала мы модифицируем функцию затрат J (θ), добавляя регуляризацию. Во-вторых, примените градиентный спуск, чтобы минимизировать J (θ) и получить значения θ3 и θ4. После процедуры минимизации значения θ3 и θ4 должны быть близки к к нулю, если λ = 1000.
Помните, что значение J (θ) представляет ошибку обучения, и это значение должно быть положительным (≥0). Параметр λ = 1000 оказывает значительное влияние на J (θ), следовательно, θ3 и θ4 должны быть близки к нулю (например, 0,000001), чтобы исключить значение ошибки.
Параметр регуляризации λ
- Если λ слишком велико, тогда все значения θ могут быть близки к нулю, и это может вызвать недостаточное соответствие. Другими словами, эта модель имеет как большую ошибку обучения, так и большую ошибку предсказания. (Обратите внимание, что срок регуляризации начинается с θ1)
- Если λ равно нулю или слишком мало, его влияние на параметры θ будет незначительным. Это может вызвать переоснащение.
Подводя итог, можно сказать, что использование регуляризации дает два преимущества.
- Ошибка предсказания регуляризованной модели меньше, то есть она хорошо работает при тестировании данных (зеленые точки).
- Модель регуляризации проще, поскольку в ней меньше функций (параметров).
До сих пор мы обсуждали концепцию регуляризации. Далее мы покажем, как минимизировать регуляризованную функцию стоимости с помощью градиентного спуска.
Напомним: градиентный спуск
Регуляризованная линейная регрессия
Если вы не знакомы с линейной регрессией, см. Здесь.
Регулярная логистическая регрессия
Если вы не знакомы с логистической регрессией, см. Здесь.
На следующей неделе мы собираемся представить популярную тему - Нейронная сеть, многочисленные архитектуры нейронных сетей были разработаны и широко применяются в приложениях.
Спасибо, что прочитали, и, если вам это нравится, поставьте мне. Любые отзывы, мысли, комментарии, предложения или вопросы приветствуются!