Простой способ изучить математику линейной регрессии

Статья предназначена для понимания линейной регрессии с использованием небольшого набора данных и лежащей в основе математики.

В« статистике линейная регрессия - это линейный подход к моделированию взаимосвязи между скалярным откликом (или зависимой переменной ) и одной или несколькими независимыми переменными (или независимыми переменными )» - Википедия

Мы начинаем с набора входов (значения x) и соответствующих выходов (значения y)

Это единственные данные, которые у нас есть. Теперь вопрос в том, можете ли вы найти y для нового значения x, например. 166 см?

Цель 1. Если x = 166 см, найдите значение y. Но как его найти?

Самый простой способ подумать об этом - если каким-либо образом я могу получить функцию f (x) = y, такую, что когда я помещаю значения x, например. 150,145…, я получаю соответствующие значения y 50, 65…

Используя этот f (x), если я могу ввести новое значение x в функцию как f (166), я получу требуемый y😊.

Звучит отлично! Но как мне найти f (x)?

Цель 2: найти f (x)

Теперь я могу провести любую кривую (например, синюю линию) через точки данных и найти уравнение кривой и назвать его f (x), но найти уравнение указанной синей кривой или любой сложной кривой будет сложно.

Глядя на график, простейшая кривая - это представить линию, проходящую через набор данных (оранжевая линия).

Хотя оранжевая линия проходит близко к точкам данных, она не проходит через них, и это определенно приведет к ошибкам в моих расчетах для y = f (166). Но я могу минимизировать ошибки и получить более точное значение y.

Звучит как план!

Что у меня есть сейчас 1) · Точки данных и график 2) Неизвестная линия
* пусть уравнение этой неизвестной оранжевой линии будет иметь вид Y = mx + c = f (x) (из математики в средней школе)

Для уравнения прямой нам нужны только две вещи: m = наклон, c = пересечение оси y.

Поэтому мне просто нужно найти m и c, чтобы сформировать оранжевую линию, чтобы ошибки были минимизированы, а прогноз был более точным.

Цель 3: найти такие m и c, чтобы ошибки были минимальными? Ладно! 😊

Но подождите, а какие здесь ошибки?

Ошибки возникают из-за разницы между y1 и прогнозируемыми значениями y на y = mx + c.

для данного значения x ошибка будет d1 = (y1-Y1), где Y1 = mx1 + c. Полная ошибка будет суммированием всех таких расстояний.

Математика приведена ниже:

Причина, по которой я не взял | y1 -y |: Почему я взял квадрат (y1 -y) 2, а не
| y1 -y | чтобы избежать сокращения расстояний?
Если мы видим график для абсолютной функции y = | x |, функция не дифференцируема во всех точках (см. точку в начале координат, производная не существует в этой точке ) это может быть неверно для нужной нам функции f (x), поэтому возведение в квадрат - лучший вариант здесь.

Это необходимо для того, чтобы подробно узнать, почему он не дифференцируется в исходной точке, другие могут пропустить эту часть.

Вернуться к нашей цели 3

Чтобы свести к минимуму ошибки (сумму всех расстояний), единственный математический инструмент, который я помню, - это дифференцировать функцию один раз по соответствующей переменной и сделать ее равной нулю.

Надеюсь, поможет. Любые вопросы, дайте мне знать в разделе комментариев.