Взгляд на машинное обучение

  • Часть 2

Что такое регрессия?

Регрессионный анализ — это форма метода прогнозного моделирования, которая исследует взаимосвязь между зависимой и независимой переменной.

Три основных применения регрессионного анализа:

а. Определение силы предикторов

б. Прогнозирование эффекта (влияния изменений)

в. Прогнозирование тенденций (анализ будущего)

ЛИНЕЙНАЯ РЕГРЕССИЯ:

Линейная регрессия — это подход к оценке взаимосвязи между одной зависимой переменной и одной независимой переменной.

Характеристики:

  • Данные моделируются с использованием прямой линии.
  • Он используется с непрерывной переменной. В отличие от логистической регрессии он дает значение переменной в качестве выходных данных, тогда как в логистической регрессии мы получаем вероятность возникновения события.
  • Точность и качество подгонки измеряются функцией потерь, R-квадратом, корректировкой R-квадрата и т. д.
  • Непрерывный X - Непрерывный Y.

Критерии выбора линейной регрессии:

  • Возможности классификации и регрессии
  • Качество данных
  • Вычисления и сложность
  • Комплексный и прозрачный

Где используется линейная регрессия?

  • Оценка тенденций и оценок продаж
  • Анализ влияния ценовых диапазонов
  • Оценка рисков в сфере финансовых услуг и страхования

Понимание алгоритма линейной регрессии:

Рассмотрим данный набор данных, который содержит три характеристики Страна, ВВП на душу населения (долл. США), Удовлетворенность жизнью.

Давайте нанесем данные для нескольких случайных стран

Кажется, здесь есть тренд! Хотя данные зашумлены (то есть частично случайны), похоже, что удовлетворенность жизнью растет более или менее линейно по мере увеличения ВВП страны на душу населения. Итак, вы решили смоделировать удовлетворенность жизнью как линейную функцию ВВП на душу населения. Этот шаг называется выбором модели: вы выбрали линейную модель удовлетворенности жизнью только с одним атрибутом — ВВП на душу населения.

Удовлетворенность жизнью = b0 + b1*ВВП на душу населения

y = b0 + b1*x1

у = удовлетворенность жизнью

b0 = постоянная

b1 = коэффициент

x1 = ввп_на душу населения

# Предсказание модели линейной регрессии (векторизованная форма)

y = h θ x = θ · x
• θ — вектор параметров модели, содержащий член смещения θ 0 и весовые коэффициенты
признаков от θ 1 до θ n .
• x – значение экземпляра вектор признаков, содержащий от x 0 до xn , где x 0 всегда равен 1.
• θ · x — скалярное произведение векторов θ и x, которое, конечно, равно
θ 0 x 0 + θ 1 x 1 + θ 2 x 2 + ⋯ + θ nxn .
• h θ — функция гипотезы, использующая параметры модели θ.

Как простая линейная регрессионная регрессия находит наиболее подходящую линию?

Он использует обычный метод наименьших квадратов, где

yi - фактическое значение

yi^ - прогнозируемое значение

Программирование

Шаг 1 . Импорт библиотек и импорт наборов данных

На этом этапе мы импортируем необходимые библиотеки, такие как numpy, pandas и matplotlib, вместе с набором данных, над которым мы хотим работать.

Шаг 2. Разделение набора данных

Мы разделим данный набор данных на две категории — зависимые и независимые.

  • Есть 4 основных параметра, которые обычно принимает метод train_test_split.

a.Зависимый(y) и независимый(x)

б. test_size = какой должен быть размер теста по сравнению со всем набором данных

в. random_state = используется для инициализации внутреннего генератора случайных чисел, который определяет разделение данных на train и test индексы в вашем случае.

Шаг 3. Вызов пакета линейного регрессора для соответствия набору данных

Шаг 4: Визуализация выходного значения:

Если вы знакомы с библиотекой Matplotlib, то приведенный выше код — это просто чашка чая для вас.

Вывод :