Что такое регресс?

Регрессия - это в основном статистический подход к нахождению взаимосвязи между переменными. Линейная регрессия - это один из типов регрессии, который мы используем в машинном обучении.

Основы линейной регрессии

  • y = ax+b

y = цель

x = функция

a, b = параметр модели

  • Как выбрать а и б?
  • Определите функцию ошибок для любой данной строки, выберите строку, которая минимизирует функцию ошибок. Такую функцию ошибок также называют функцией потерь или стоимости.

from sklearn.linear_model import LinearRegression

Какая наша цель ??

Наша цель - минимизировать расстояние по вертикали между всеми точками данных и нашей линией.

Итак, при определении лучшей линии мы пытаемся минимизировать расстояние между всеми точками и их расстояние до нашей линии (красной линии).

Есть много разных способов минимизировать это: сумма квадратов ошибок, сумма абсолютных ошибок и т. Д., Но все эти методы имеют общую цель минимизировать расстояние.

Например, одним из популярных методов является метод наименьших квадратов.

Метод наименьших квадратов:

Здесь у нас есть синие точки данных по осям X и Y. Теперь мы хотим подогнать линию линейной регрессии. Как мы решаем, какая линия лучше всего подходит?

Мы будем использовать метод наименьших квадратов, который соответствует минимизации суммы квадратов остатков (красная линия).

Остатки для наблюдения - это разница между наблюдением (значением y) и подобранной линией.

Метрики оценки регрессии

Вот три распространенных показателя оценки проблем регрессии:

Средняя абсолютная ошибка (MAE) - это среднее абсолютное значение ошибок:

Среднеквадратичная ошибка (MSE) - это среднее значение квадратов ошибок:

Среднеквадратичная ошибка (RMSE) - это квадратный корень из среднего квадрата ошибок:

Сравнение этих показателей:

  • MAE проще всего понять, потому что это средняя ошибка.
  • MSE более популярен, чем MAE, потому что MSE «наказывает» более крупные ошибки, что, как правило, полезно в реальном мире.
  • RMSE даже более популярен, чем MSE, потому что RMSE интерпретируется в единицах «y».

Все это функции потерь, потому что мы хотим их минимизировать.

Линейная регрессия в высших измерениях

y = a1 x1 + a2 x2 + b

  • Чтобы соответствовать модели линейной регрессии здесь:

Необходимо указать 3 переменные (a1, a2, b)

  • В высших измерениях

y = a1 x1 +a2 x2 + — — +an xn+b

Мы должны указать коэффициенты для каждого признака и переменной b.

  • Sklearn API работает точно так же

Передайте два массива: Feature и target

Код

Мы начнем с работы с набором данных о жилье, пытаясь создать модель для прогнозирования цен на жилье на основе существующих характеристик.

Github Repo здесь

Посетите: MLAIT, чтобы узнать больше об ML и Cloud.

Посетите: Линейная регрессия в машинном обучении

Спасибо!

Оставайтесь на связи и оставайтесь на связи с #MLAIT

Следуйте за нами, чтобы увидеть больше блогов о машинном обучении, искусственном интеллекте и облаке…