Линейная регрессия

Линейная регрессия является основным и наиболее широко используемым типом прогнозного анализа.

Содержание

Определить
Цель линейной регрессии
Типы линейной регрессии
Допущения линейной регрессии
Показатели оценки
Что нужно помнить
Приложения
Ссылки

Определение

Линейная регрессия — это один из простейших алгоритмов машинного обучения с учителем, который помогает найти взаимосвязь между одной или несколькими независимыми переменными (предикторами), обозначенными как X, и зависимыми переменными ( цель )обозначается как y.

y (левая сторона здесь) также известна как зависимые переменные, переменная ответа или переменная результата.

X (правая сторона здесь) также известен какнезависимые переменные, независимые переменные или переменные-предикторы.

На приведенной выше диаграмме синие точки показывают нам распределение yw.r.t. х. Не существует такой прямой линии, которая проходит через все точки данных. Таким образом, основная цель здесь состоит в том, чтобы наилучшим образом подобрать линию регрессии, которая попытается минимизировать ошибку между фактическими и прогнозируемыми значениями.

Поиск наиболее подходящей линии

Минимизируя расстояние (или, скажем, ошибку) между всеми точками данных и линией регрессии, мы можем найти наилучшую линию для нашего набора данных. Существуют различные способы, с помощью которых мы можем минимизировать расстояние, например, используя сумму квадратов ошибок, сумму абсолютных ошибок или среднеквадратичную ошибку и т. д.

Наша главная цель — минимизировать функцию стоимости, обновляя различные значения θ. Минимальное значение функции стоимости даст нам наиболее подходящую линию регрессии для нашего набора данных.

Типы линейной регрессии:

Линейная регрессия обычно делится на два типа:

Простая линейная регрессия. В простой линейной регрессии у нас есть только одна независимая переменная X и соответствующая переменная y.
Множественная линейная регрессия. В множественной линейной регрессии у нас есть одна или несколько независимых переменных X и соответствующая переменная y.

Допущения линейной регрессии:-

Нормальность:- при любом фиксированном значении X y нормально распределяется.
Линейность :- связь между X и y является линейной.
Независимость. Наблюдения не зависят друг от друга.
Гомоскедастичность. Дисперсия остатка одинакова для любого значения X.

Метрики оценки в линейных регрессиях: -

Ниже приведены некоторые показатели оценки линейной регрессии.

Среднеквадратическая ошибка (MSE).MSE в основном дает нам среднеквадратичную разницу между прогнозируемым значением и фактическим значением данных. Он имеет выпуклую форму и штрафует за большие ошибки.

Средняя абсолютная ошибка (MAE). Она просто дает нам абсолютную разницу между целевым значением и прогнозируемым значением.

Среднеквадратическая ошибка (RMSE) :-Это дает нам квадратный корень из средней разницы между прогнозируемым и фактическим значением.

Что следует помнить: –

Он используется для решения проблемы регрессии.
Переменные ответа являются непрерывными по своей природе.
Линейная регрессия чувствительна к выбросам.

Применение линейной регрессии:

Ниже приведены несколько приложений линейной регрессии в реальной жизни в разных областях.

Бизнес-приложение: например: расходы на рекламу и доход.

Медицинское применение: пример: дозировка лекарств и артериальное давление пациентов

Применение в сельском хозяйстве: пример: влияние удобрений и воды на урожайность.

Использованная литература :-

Википедия
Блог о науке о данных
Несколько других блогов