Линейная регрессия — это статистический метод, используемый для моделирования линейной зависимости между зависимой переменной и одной или несколькими независимыми переменными. Он используется для прогнозирования значения зависимой переменной на основе значений независимых переменных.

Существует два типа линейной регрессии:

  • Простая линейная регрессия
  • Многомерная линейная регрессия

Простая линейная регрессия используется, когда имеется только одна независимая переменная. Он включает в себя подгонку прямой линии к точкам данных для моделирования взаимосвязи между независимой переменной и зависимой переменной. Прямая линия известна как линия регрессии и задается уравнением:

где y - зависимая переменная, x - независимая переменная, b - точка пересечения (значение y, когда x равно нулю), а m - наклон (изменение y на единичное изменение x).

Цель простой линейной регрессии — найти наиболее подходящую линию, описывающую взаимосвязь между зависимой и независимой переменными.

Например, допустим, мы хотим предсказать зарплату человека на основе его многолетнего опыта. Мы собираем данные из выборки людей и наносим зарплату и опыт на диаграмму рассеяния. Затем мы можем использовать простую линейную регрессию, чтобы найти линию наилучшего соответствия, которая представляет отношение между зарплатой и опытом.

Уравнение для одиночной модели линейной регрессии тогда будет записано следующим образом:

Зарплата = m * year_of_experience + b

Вы можете найти полный код простой линейной регрессии по следующей ссылке на github



Многомерная линейная регрессия используется при наличии нескольких независимых переменных. Уравнение для модели многомерной линейной регрессии:

где y — зависимая переменная, x1, x2, …, xn — независимые переменные, b1, b2, …, bn — коэффициенты при независимых переменных.

Чтобы подобрать модель многомерной линейной регрессии, нам нужно найти значения b0, b1, b2, …, bn, которые минимизируют сумму квадратов ошибок между предсказанными значениями y и фактическими значениями y. Это можно сделать с помощью метода наименьших квадратов, как в простой линейной регрессии.

Например, в контексте набора данных 50 стартапов из Kaggle мы могли бы использовать многомерную линейную регрессию для моделирования взаимосвязи между различными независимыми переменными (такими как расходы на исследования и разработки, административные расходы и расходы на маркетинг) и зависимой переменной (прибыль).

Тогда уравнение для модели многомерной линейной регрессии будет записано следующим образом:

Прибыль = b0 + b1 * расходы на НИОКР + b2 * расходы на администрирование + b3 * расходы на маркетинг

Вы можете найти полный код многомерной линейной регрессии по следующей ссылке на github



Линейная регрессия — это мощный инструмент для прогнозирования значения зависимой переменной на основе значений одной или нескольких независимых переменных. Он широко используется в различных областях, включая экономику, финансы и маркетинг. Однако важно отметить, что линейная регрессия подходит только для моделирования линейных отношений между переменными.

Спасибо, что прочитали мой блог, и надеюсь, вам понравилось! Приятного обучения!