Введение

В этом посте мы обычно сосредотачиваемся на четырех фундаментальных аспектах регуляризации в машинном обучении.

  • Что такое регуляризация?
  • Для чего используется регуляризация?
  • Как регуляризация может решить проблему переобучения?
  • Справочная информация об ошибках смещения и дисперсии для понимания трех предыдущих важных моментов.

В этом посте эти четыре различных аспекта регуляризации анализируются на теоретическом уровне, и дается их общий обзор. В следующем посте будут рассмотрены три распространенных метода регуляризации, применяемых к линейной регрессии, и будет продемонстрировано, как термин регуляризации влияет на алгоритмы оптимизации в пространственном мире, чтобы обеспечить геометрическую интуицию об этом.

1) Справочная информация

При обучении стандартной модели машинного обучения мы стараемся сделать так, чтобы метки истинности набора данных и прогнозы модели для них были как можно ближе друг к другу. Эта операция выполняется над функцией потерь, которую мы выбрали для нашей задачи, и имеет тенденцию повышать точность модели в обучающем наборе наряду с минимизацией смещения в общей ошибке.

Общая ошибка, допущенная моделью машинного обучения по сравнению с ее прогностическими возможностями, состоит из трех значений: смещение, дисперсия и неснижаемая ошибка. Смещение определяется как то, насколько прогнозируемое значение отличается от правильной метки.

Однако эта тенденция иногда приводит к тому, что модели машинного обучения запоминают шаблон, в котором набор данных рассредоточен в многомерном пространстве, а не понимает, и, таким образом, обобщаются на этот шаблон, который называется переобучением. Это совершенно нежелательная ситуация, потому что модель на самом деле не узнает необходимые вещи из данных, и когда мы тестируем ее на невидимых наборах данных, она, скорее всего, потерпит неудачу. Кроме того, модели машинного обучения, подвергающиеся переобучению, становятся настолько сложными, и, следовательно,; их дисперсия максимальна при общей ошибке.

Дисперсия - это второй член общей ошибки, который обозначает степень чувствительности модели к набору данных. Другими словами, если на производительность модели легко повлиять небольшие изменения в наборе данных, эта модель будет хорошо адаптирована к ней. Это основная причина того, почему переобученные модели терпят неудачу в невидимых тестовых наборах, будучи успешными в обучающем наборе.

Рисунок, показанный ниже, на самом деле является сводкой всех объяснений, данных выше, и предназначен для понимания контекста.

2) Регуляризация

Здесь появляется регуляризация. Регуляризация способна устранить переоснащение, а следовательно; улучшает качество модели. Хотя его наиболее распространенные практики наблюдаются при линейной регрессии, она также применима к моделям логистической регрессии, а также к искусственным нейронным сетям, страдающим от переобучения.

Регуляризация предназначена для добавления дополнительного члена к функции затрат целевой модели ML или DL. Что именно делает этот дополнительный член, так это то, что алгоритмы оптимизации, такие как градиентный спуск, не достигают значений веса, минимизируя ошибку смещения. Другими словами, это приводит к добавлению в модель дополнительной ошибки смещения. Таким образом устраняется большое количество ошибок дисперсии, модель избавляется от переобучения и приобретает возможность обобщения по сравнению с ее предсказательной способностью. Этот процесс также показан на рисунке ниже.

Как показано на графике регуляризации, для минимизации ошибки смещения модель имеет тенденцию отказываться от зоны наилучшего восприятия, в которой наблюдается наименьшая общая ошибка, и попадает в область переобучения. Регуляризация приносит в жертву небольшую предвзятость; тем не менее, таким образом он снова помещает модель в оптимальное положение за счет уменьшения большого количества дисперсии. Другими словами, добавление к функции стоимости члена регуляризации всегда удерживает модель в оптимальном состоянии в процессе обучения; однако, если мы не используем этот термин в нашей функции потерь, модель может оказаться в зоне переобучения.

Термины регуляризации обычно бывают двух разных типов, которые называются L2 и L1. В то время как термин L2 - это евклидово расстояние между началом координат и положением, в котором веса модели расположены в многомерном пространстве, термин L1 относится к тому же, за исключением метода вычисления расстояния, которое на самом деле является манхэттенским расстоянием. На рисунке ниже условия регуляризации L2 и L1 показаны с функциями потерь логистической регрессии и линейной регрессии соответственно.

В то время как алгоритмы оптимизации пытаются достичь точки глобального минимума на кривой потерь, они фактически уменьшают значение первого члена в этих функциях потерь, то есть части суммирования. Однако в то же время длина вектора весов имеет тенденцию к увеличению; следовательно, ценность условий регуляризации возрастает. Алгоритмы оптимизации должны обеспечивать баланс между условиями суммирования и регуляризации; невозможно уменьшить значения обоих. Лямбда гиперпараметров (λ) используется для настройки этого баланса и определения того, какой из них является более доминирующим. Фактически, этот баланс также относится к упомянутому выше компромиссу смещения и дисперсии. Другими словами, члены регуляризации ведут себя как ручной тормоз, и из-за этого регуляризация также способна уменьшить веса обучаемых моделей и тем самым уменьшить нестабильность, наблюдаемую на моделях из-за наличия больших весов.

Последний важный момент, который мы должны затронуть в этом посте, - это то, почему термины регуляризации не имеют параметра смещения (b) и определяются исключительно по весам. Фактически, мы также можем упорядочить наши модели обучения с помощью параметра смещения (b); нет ограничений, что он должен проводиться только на весах. Однако в этом нет необходимости, поскольку обучающие модели обычно поддерживают большое количество весов, и регуляризация моделей по параметру b будет иметь очень небольшой вклад в модель по сравнению с этим вектором весов.

Вывод

Я надеюсь, что смогу предоставить информативный и полезный контекст об операции регуляризации. Если в посте есть что-то неясное, вы можете упомянуть об этом в своих комментариях. Наиболее распространенные методы регуляризации, применяемые к линейной регрессии и геометрической интуиции, будут рассмотрены в следующем посте.