В этом посте давайте разберемся, что такое регрессионный анализ, и погрузимся в простую линейную регрессию.

Разделы этого поста будут следующими:

· Что такое регрессионный анализ?

· Что такое линейная регрессия?

· Простая линейная регрессия

· R-квадрат

· Среднеквадратичная ошибка

· Общая сумма квадратов

· Сумма квадратов регрессии

Если вы готовы, приступим

1. Что такое регрессионный анализ?

Это форма метода прогнозного моделирования, который исследует взаимосвязь между зависимыми и независимыми переменными.

Существуют разные виды регрессионного анализа.

· Линейная регрессия.

· Логистическая регрессия.

· Риджерная регрессия.

· Лассо-регрессия.

· Полиномиальная регрессия.

Давайте обсудим линейный регрессионный анализ.

2. Что такое линейный регрессионный анализ?

Это один из самых основных типов регрессии в машинном обучении. Линейная регрессия - это линейная аппроксимация случайной связи между двумя или более переменными.

Переменная, которую вы хотите предсказать, называется зависимой переменной. Переменная, которую вы используете для прогнозирования значения другой переменной, называется независимой переменной.

Некоторые примеры использования линейной регрессии:

  1. Оценка тенденций и оценки продаж.
  2. Анализ влияния изменения цен.

3. Простая линейная регрессия.

Простая линейная регрессия используется для оценки взаимосвязи между двумя количественными переменными. Вы можете использовать простую линейную регрессию, если хотите знать: Насколько сильна связь между двумя переменными.

Он используется для измерения причинно-следственной связи между двумя переменными.

Правила простой линейной регрессии:

  1. Две переменные x, y должны быть числовыми, они могут быть непрерывными или дискретными.
  2. Зависимая переменная y должна иметь нормальное распределение.
  3. Обе переменные имеют линейный характер, т.е. если x увеличивается, y должен увеличиваться или наоборот.
  4. Дисперсия ошибки должна быть постоянной, что также называется гомошадностью, или ошибка должна быть нормально распределенной.

Наша основная цель - уменьшить ошибку, т.е. уменьшить расстояние между прогнозируемым значением и фактическим значением.

Линия регрессии наилучшего соответствия - это та, которая имеет наименьшее различие между расчетными значениями и фактическими значениями.

Регрессия:

Метод прогнозного моделирования, который исследует взаимосвязь между зависимой и независимой переменной.

Запишите приведенное выше уравнение в статистическую формулу:

Из приведенного выше уравнения, например, если β = 2, это означает, что ожидается увеличение y на 2 единицы на каждую 1 единицу x.

Если β = -2, ожидается, что y уменьшится на 2 единицы на каждую 1 единицу x.

Здесь мы используем точечные диаграммы, чтобы проверить линейный характер.

Теперь давайте определим SSE (сумма квадратов ошибок), SSR (сумма квадратов регрессии), SST (сумма квадратов общей).

Сумма квадратичной ошибки:

Это разница между наблюдаемым значением и прогнозируемым значением.

Его можно использовать как меру вариации внутри кластера. Если все случаи в кластере идентичны, SSE будет равно 0.

Выведем формулу для SSE:

Регрессия по сумме квадратов:

Это сумма разностей между прогнозируемым значением и средним значением зависимой переменной.

Это показатель того, насколько хорошо ваша линия соответствует данным.

Если значение SSR равно сумме квадратов Total, это означает, что ваша регрессионная модель улавливает всю наблюдаемую изменчивость, и она идеальна.

Общая сумма квадратов:

Общая изменчивость набора данных равна дисперсии, объясненной линией регрессии, плюс необъяснимая дисперсия.

SST = SSR + SSE

Коэффициент детерминации (R-квадрат):

Значение R-Squared - это статистическая мера того, насколько данные близки к подобранной линии регрессии.

Здесь мы проверяем расстояние фактического среднего и расстояние прогнозируемого среднего.

Давайте возьмем примерные значения и посмотрим, как рассчитывается прогнозируемое значение.

В этой статье мы увидели, что такое линейная регрессия, и несколько важных терминов, относящихся к регрессионному анализу.

В следующей статье мы подробно рассмотрим множественную линейную регрессию и все важные термины, относящиеся к ней.

Надеюсь, я дал вам базовое понимание некоторых терминов, связанных с простой линейной регрессией. Если вам понравился этот пост, несколько хлопков в ладоши будет полезным, если вы добавите немного дополнительной мотивации 👏. Я всегда открыт для ваших вопросов и предложений. Вы можете поделиться этим в Facebook, Twitter, LinkedIn, чтобы кто-то, кто в этом нуждался, мог наткнуться на это.

Пожалуйста, поддержите меня: https://www.buymeacoffee.com/realkumar07

Спасибо за чтение!