Регуляризация – это процесс добавления информации для решения проблем машинного обучения, таких как переобучение. Это одна из самых важных концепций машинного обучения. С математической точки зрения регуляризация может применяться к задачам оптимизации, где можно добавить член регуляризации или штраф, чтобы найти оптимальное решение задачи оптимизации.

Наиболее часто используемые методы регуляризации следующие:

  1. Регуляризация L1
  2. Регуляризация L2

Чтобы лучше понять Ридж и регрессию Лассо. Давайте сначала попробуем понять проблемы, возникающие при регрессии из-за компромисса смещения и дисперсии.

Предвзятость:

Смещение — это величина, на которую прогнозы моделей отличаются от фактического целевого значения по сравнению с данными обучения. Это можно назвать ошибкой, связанной с ошибкой обучающих данных. Высокий уровень смещения может привести к недообучению, которое происходит, когда алгоритм не может уловить соответствующие отношения между существующими функциями и целевыми значениями. Смещение просто измеряет точность оценок нашей модели.

Отклонение:

Дисперсия указывает на изменение целевой функции, когда новые данные используются для создания прогнозов. Это может быть связано с ошибкой, связанной с тестированием или невидимыми данными. Дисперсия не фокусируется на общей точности, а просто измеряет разброс или неопределенность в оценках модели.

Компромисс между смещением и дисперсией:

На этапе моделирования данных необходимо принять решение об уровне систематической ошибки и дисперсии в моделях. Необходимо найти правильный баланс между смещением и дисперсией моделей. При построении контролируемого алгоритма машинного обучения цель состоит в том, чтобы добиться низкого смещения и дисперсии для наиболее точных прогнозов. Для этого необходимо эффективно решать проблемы недообучения и переобучения.

Давайте посмотрим на иллюстрацию концепции предвзятости и дисперсии:

  1. Низкая погрешность и низкая дисперсия. Желательно, чтобы при моделировании были получены точные прогнозы. Это означает меньше ошибок с точки зрения как обучающих, так и тестовых данных.
  2. Низкое смещение и высокая дисперсия.Также называется сценарием переобучения, когда ошибка, связанная с обучением, меньше, но модель хуже работает на тестовых данных, а ошибка значительно велика.
  3. Высокое смещение и низкая дисперсия. Указывает на то, что модель делает неправильные оценки обучающих данных, но хорошо обобщает данные тестирования. Ошибка, связанная с данными обучения, больше, а данные тестирования меньше.
  4. Высокое смещение и высокая дисперсия. Также называется сценарием недостаточного соответствия, когда ошибка, связанная как с данными обучения, так и с данными тестирования, велика.

Компромисс смещения и дисперсии можно лучше понять с помощью следующей диаграммы:

Регрессия Риджа и Лассо обычно использует термин регуляризации или штрафа, чтобы избежать проблемы смещения и компромисса дисперсии в регрессии.

Мы знакомы с тем фактом, что простая модель линейной регрессии использует метод наименьших квадратов, чтобы найти наилучшую линию для нашего набора данных, целью которой является минимизация остаточной суммы квадратов. Другими словами, простая линейная регрессия фокусируется на минимизации функции потерь:

Оценщик МНК обладает желаемым свойством быть беспристрастным. Однако он может иметь огромную дисперсию. В частности, это происходит, когда:

  1. Предикторные переменные сильно коррелируют друг с другом
  2. Предсказателей много

Общее решение этой проблемы таково: уменьшить дисперсию ценой внесения некоторой предвзятости. Этот подход называется регуляризацией и почти всегда полезен для прогностической эффективности модели.

Регрессия хребта:

Модель регрессии, в которой используется метод регуляризации L2, называется регрессией гребня. Функция потерь OLS дополняется таким образом, что мы не только минимизируем сумму квадратов остатков, но и налагаем штраф на размер оценок параметров, чтобы уменьшить их до нуля. Он добавляет штраф или член регуляризации, эквивалентный квадрату величины коэффициентов.

Уравнение для функции потерь хребтовой регрессии выглядит следующим образом:

Выбор параметра регуляризации (λ)

Есть два способа решить эту проблему. Более традиционный подход заключается в выборе λ таким образом, чтобы какой-либо информационный критерий, например, AIC или BIC, был наименьшим. Подход, более похожий на машинное обучение, заключается в выполнении перекрестной проверки и выборе значения λ, которое минимизирует перекрестную проверку суммы квадратов остатков (или какой-либо другой меры). Первый подход делает упор на соответствие модели данным, а второй больше ориентирован на ее прогностическую эффективность.

Лассо-регрессия. Лассо, или оператор наименьшего абсолютного сокращения и выбора, концептуально очень похож на гребневую регрессию. Модель регрессии, в которой используется метод регуляризации L1, называется регрессией Лассо. Он добавляет штраф или срок регуляризации, эквивалентный сумме абсолютных значений коэффициентов.

Уравнение для функции потерь регрессии Лассо выглядит следующим образом:

Ридж-регрессия против регрессии Лассо:

  1. Лассо выполняет эффективный выбор переменных, устанавливая некоторые коэффициенты равными нулю, чего нельзя сказать о хребтовой регрессии.
  2. Лассо работает лучше, если имеется небольшое количество независимых признаков или значимых параметров, то есть когда только несколько предикторов фактически влияют на ответ.
  3. Ридж хорошо работает, если имеется большое количество независимых признаков или значимых параметров, т. е. когда большинство предикторов влияют на отклик.
  4. Однако, поскольку мы не знаем истинных значений параметров, более эффективно выполнить перекрестную проверку, а затем выбрать более подходящую модель для конкретного случая.