Вы можете спросить себя: зачем нужна регуляризация?

Прежде всего, регуляризация регрессионных моделей позволяет избежать переобучения при автоматической подгонке нашей модели. Регуляризация выполняется путем добавления штрафа к нашей функции потерь. Вспомните нашу функцию потерь для простой регрессии методом наименьших квадратов (OLS). Путем выбора значения бета, которое минимизирует сумму квадратов ошибок (SSE), находится линия наилучшего соответствия.

Переоснащение может произойти, когда есть множество функций, которые мы хотим использовать для прогнозирования целевой переменной. Например, выполнение полиномиального преобразования пяти числовых столбцов в третью степень вернет МНОГО признаков (точнее, вернет 25 признаков, поскольку 5C3 + 5*3 = 25).

Добавляя штраф к функции SSE, мы создаем новую функцию потерь, которую можно минимизировать, чтобы предотвратить переоснащение модели.

Вы можете спросить себя: что дает добавление штрафа к функции потерь? Эта новая функция потерь обеспечивает соответствующий размер бета-коэффициентов. В основном, мы хотим, чтобы наши бета рассчитывались на основе сигнала, а НЕ шума.

Перед регуляризацией коэффициентов мы должны стандартизировать переменные, так как это снижает величину коэффициентов. Прежде всего, стандартизация уменьшит дополнительный шум и рассмотрит больше сигнала от целевой переменной. Это имеет смысл, верно? Если я предсказываю цену дома, а две функции — это количество спален и возраст дома, то параметры находятся в совершенно другом масштабе. Таким образом, стандартизация необходима перед регуляризацией.

Тремя наиболее распространенными регрессиями регуляризации являются Ridge, Lasso и Elastic Net. Начнем с Риджа.

Если вы видите выше, 𝛼 — это сила параметра регуляризации. Если 𝛼 равно бесконечности, штраф Риджа окажет значительное влияние на функцию потерь. Если 𝛼 равно 0, мы вернемся к функции потерь для МНК.

Теперь давайте определим лассо.

Регрессия Лассо использует другой подход. Вместо добавления суммы квадратов бета (как Ridge), Лассо добавляет сумму абсолютного значения бета. Помните, что более высокое 𝛼 сужает бета до 0. Это связано с тем, что по мере увеличения 𝛼 функция потерь Лассо увеличивается, что дает больше возможностей для минимизации SSE плюс штраф Лассо, что дает обоснование для бета-коэффициентов, чтобы уменьшиться до 0 (если применимо).

Цель этого блога — выделить критические различия между Ridge и Lasso и причину, по которой регуляризация необходима для моделей регрессии. Примечание. Лассо может уменьшить коэффициенты до нуля, тогда как Ридж может уменьшить коэффициенты, но никогда не уменьшить их до нуля.