Простой способ изучить математику линейной регрессии
Статья предназначена для понимания линейной регрессии с использованием небольшого набора данных и лежащей в основе математики.
В« статистике линейная регрессия - это линейный подход к моделированию взаимосвязи между скалярным откликом (или зависимой переменной ) и одной или несколькими независимыми переменными (или независимыми переменными )» - Википедия
Мы начинаем с набора входов (значения x) и соответствующих выходов (значения y)
Это единственные данные, которые у нас есть. Теперь вопрос в том, можете ли вы найти y для нового значения x, например. 166 см?
Цель 1. Если x = 166 см, найдите значение y. Но как его найти?
Самый простой способ подумать об этом - если каким-либо образом я могу получить функцию f (x) = y, такую, что когда я помещаю значения x, например. 150,145…, я получаю соответствующие значения y 50, 65…
Используя этот f (x), если я могу ввести новое значение x в функцию как f (166), я получу требуемый y😊.
Звучит отлично! Но как мне найти f (x)?
Цель 2: найти f (x)
Теперь я могу провести любую кривую (например, синюю линию) через точки данных и найти уравнение кривой и назвать его f (x), но найти уравнение указанной синей кривой или любой сложной кривой будет сложно.
Глядя на график, простейшая кривая - это представить линию, проходящую через набор данных (оранжевая линия).
Хотя оранжевая линия проходит близко к точкам данных, она не проходит через них, и это определенно приведет к ошибкам в моих расчетах для y = f (166). Но я могу минимизировать ошибки и получить более точное значение y.
Звучит как план!
Что у меня есть сейчас 1) · Точки данных и график 2) Неизвестная линия
* пусть уравнение этой неизвестной оранжевой линии будет иметь вид Y = mx + c = f (x) (из математики в средней школе)
Для уравнения прямой нам нужны только две вещи: m = наклон, c = пересечение оси y.
Поэтому мне просто нужно найти m и c, чтобы сформировать оранжевую линию, чтобы ошибки были минимизированы, а прогноз был более точным.
Цель 3: найти такие m и c, чтобы ошибки были минимальными? Ладно! 😊
Но подождите, а какие здесь ошибки?
Ошибки возникают из-за разницы между y1 и прогнозируемыми значениями y на y = mx + c.
для данного значения x ошибка будет d1 = (y1-Y1), где Y1 = mx1 + c. Полная ошибка будет суммированием всех таких расстояний.
Математика приведена ниже:
Причина, по которой я не взял | y1 -y |: Почему я взял квадрат (y1 -y) 2, а не
| y1 -y | чтобы избежать сокращения расстояний?
Если мы видим график для абсолютной функции y = | x |, функция не дифференцируема во всех точках (см. точку в начале координат, производная не существует в этой точке ) это может быть неверно для нужной нам функции f (x), поэтому возведение в квадрат - лучший вариант здесь.
Это необходимо для того, чтобы подробно узнать, почему он не дифференцируется в исходной точке, другие могут пропустить эту часть.
Вернуться к нашей цели 3
Чтобы свести к минимуму ошибки (сумму всех расстояний), единственный математический инструмент, который я помню, - это дифференцировать функцию один раз по соответствующей переменной и сделать ее равной нулю.
Надеюсь, поможет. Любые вопросы, дайте мне знать в разделе комментариев.