Просто и эффективно…

Линейную регрессию можно определить как моделирование линии, которая иллюстрирует взаимосвязь между ответом и независимыми переменными.

  • Ответ: переменная, которую мы пытаемся предсказать. (Непрерывная переменная)
  • Объясняющая переменная: входные переменные в регрессионном анализе.

Допущения линейной регрессии:

  • Объясняющие переменные должны быть независимыми и некоррелированными друг с другом.
  • Члены ошибки не коррелируют друг с другом.
  • Член ошибки имеет постоянную дисперсию.

Когда использовать линейную регрессию?

  • Графический анализ: если график между меткой и входными данными имеет линейный характер.

  • Технический индикатор: если коэффициент корреляции Пирсона между входной и выходной переменной близок к -1 или 1. Мы можем проверить значение коэффициента корреляции по тепловой карте:

  • Чтобы уменьшить вероятность переобучения, мы проверяем, какие две объясняющие переменные коррелированы, и удаляем одну из них из обучения.

Как подходит линия?

OLS (обыкновенный метод наименьших квадратов):

На приведенном выше рисунке длина l1 - это разница между линией и фактической точкой данных. Для хорошей оценки мы хотели бы, чтобы l1 был как можно меньше, аналогично для всех точек данных.

Суммирование всех ошибок дает нам представление о том, как линия вписывается в наш набор данных.

где k относится к k-й точке данных в наборе.

Проблема с логикой общей ошибки будет заключаться в том, что отрицательные и положительные числа будут взаимно компенсировать друг друга, и мы не сможем получить правильную оценку ошибки. Идея решения этой проблемы может заключаться в использовании абсолютного значения разницы.

  • Можем ли мы сделать лучше?

Каждый алгоритм машинного обучения пытается минимизировать функцию стоимости или функцию ошибок. Поэтому, если мы хотим, чтобы алгоритм не допускал больших ошибок, мы можем наказать алгоритм, умножив переменный вес. Чем больше ошибка, тем больше вес.

В OLS мы используем само значение ошибки в качестве веса. Таким образом, уравнение выглядит следующим образом:

  • Можно ли увеличить степень ошибки до 4 с 2?

Мы можем увеличить мощность до любого четного числа, которое захотим, если сможем вычислить значения. Здесь есть компромисс между улучшением результатов и сложностью вычислений. Возведение ошибок в квадрат дает достаточно хорошие результаты.

Чтобы найти минимум ошибки, мы заменяем уравнение линии и дифференцируем функцию полной ошибки.

После дифференцирования уравнения приравняем значение нулю, чтобы получить:

Заменяя значения m и c в уравнении y = mx + c, мы получаем требуемую линию регрессии.

Точно так же мы вычисляем, есть ли более одной независимой переменной.

  • в методе OLS мы должны вычислять значения всего набора данных сразу, что подразумевает, что чем больше наш набор данных, тем больше времени.

Градиентный спуск:

Альтернативный способ регрессии линии может заключаться в изменении значений параметров m и c в каждой точке.

  • Мы начинаем принимать значение m = 0 и c = 0. Затем мы вычисляем производную m и c, как показано ниже.

  • обновляем значения:

Где L - скорость обучения, мы сохраняем ее небольшой, чтобы не перескочить. Это сложная вещь, если мы возьмем очень маленькое значение L, тогда количество итераций возрастет, и если мы возьмем большое значение, мы можем перескочить и никогда не достичь глобального минимума.

Условием остановки для итерации не будет существенного изменения предыдущего значения общей ошибки на новое значение общей ошибки.

Степень соответствия:

После того, как мы выведем линию регрессии, мы можем измерить, как работает наша модель, используя следующие меры соответствия.

  • Ошибка R-квадрата: определяется как отношение необъяснимой дисперсии после моделирования к общей дисперсии в наборе данных. Общая дисперсия рассчитывается путем использования среднего значения данных в качестве прогнозируемого значения. Его значения варьируются от 0 до 1.

  • Скорректированная ошибка R-квадрата: значение ошибки R-квадрата увеличивается по мере увеличения количества параметров. Чтобы упростить модель и снизить вероятность переобучения, мы корректируем ошибку R-квадрата, накладывая на модель большее количество параметров.

Я надеюсь, что этот пост помог вам в изучении базовой концепции Линейной регрессии.