Регрессия

19 декабря 2021 г.

Регрессия

Это контролируемый алгоритм машинного обучения.

Что такое машинное обучение?

технологии машинного обучения используются в повседневной жизни для поиска решений повседневных проблем таким образом, который поддерживается очисткой, подготовкой, анализом и прогнозным моделированием данных.

Эти алгоритмы машинного обучения играют очень важную роль не только в идентификации текста, изображений и видео, но и в маркетинге, обслуживании клиентов и многих других аспектах или областях, касающихся нашей обычной жизни.

Определение машинного обучения —

Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования.
Машинное обучение — это полуавтоматическое извлечение знаний из данных.

Типы машинного обучения —

Контролируемое обучение: –

В контролируемом обучении идея состоит в том, что мы собираемся научить компьютер тому, как что-то делать.
Это процесс прогнозирования с использованием размеченных данных.
Это один из основных типов машинного обучения, который используется в мире технологий.
На самом деле контролируемое обучение можно разделить на две части:

1. Алгоритмы классификации: -

Классификация содержит категориальные данные, которые предсказывают объекты.
Классификация также может быть предпочтительнее, когда мы классифицируем данные по разным объектам.

Пример проблемы классификации.Вы хотите, чтобы программное обеспечение проверяло отдельные учетные записи клиентов и для каждой учетной записи решало, была ли она взломана/скомпрометирована.

2. Алгоритмы регрессии: -

Регрессия содержит числовые данные, которые предсказывают числа.
Алгоритмы регрессии используются для прогнозирования и прогнозирования.

Пример задачи регрессии. Классический пример алгоритма регрессии — прогнозирование цен на жилье.

У вас есть большой запас одинаковых товаров, и вы хотите предсказать, сколько из них будет продано в течение следующих 3 месяцев.

2. Обучение без учителя:-

В неконтролируемом обучении мы позволим ему учиться самому.
Это процесс извлечения шаблонов или структуры из неразмеченных данных.

Пример неконтролируемого обучения: – Имея набор новостных статей в Интернете, сгруппируйте их в набор статей о различных историях.

3. Обучение с подкреплением: –

С помощью этого алгоритма машину обучают принимать конкретные решения.
Это работает следующим образом: машина подвергается воздействию окружающей среды, в которой она постоянно тренируется методом проб и ошибок. Эта машина учится на прошлом опыте и старается максимально использовать знания для принятия точных бизнес-решений.

Что такое регрессия -

Регрессия — это процесс установления связи между независимой переменной (x) и зависимой переменной (y).
Регрессионный анализ — это форма метода моделирования прогнозного анализа, который исследует взаимосвязь между функциями и метками.
Зависимая переменная должна быть непрерывной по своей природе.
Всякий раз, когда нам нужно предсказать число (непрерывные значения), мы будем использовать регрессию.
Цель линейной регрессии — предсказать наиболее подходящую линию.

Типы линейной регрессии -

Простая линейная регрессия: –

В простой линейной регрессии мы пытаемся найти связь между одной независимой переменной (входной) и соответствующей зависимой переменной (выходной). Это можно выразить в виде прямой линии.
Простая линейная регрессия используется для моделирования взаимосвязи между двумя непрерывными переменными. Часто цель состоит в том, чтобы предсказать значение выходной переменной (или отклика) на основе значения входной (или предиктора) переменной.
Он представлен уравнением y = mx + c.
где,

y = зависимая переменная.

x = независимая переменная.

m = коэффициент регрессии, наклона или градиента.

c = перехватчик.

Здесь для определения наклона (м) используются следующие формулы:

m (коэффициент регрессии) = Σ [(xi — x) (yi — y)] / Σ [(xi — x)2].

Очки:

Линейная регрессия очень чувствительна к выбросам, используемым в случае данных большого размера.
Между независимыми и зависимыми переменными должна быть линейная зависимость.
Есть только одна независимая и зависимая переменная.
Тип линии регрессии: наиболее подходящая прямая.

2. Множественная линейная регрессия —

Если в прогнозировании цели или результата участвует более одного фактора или независимой переменной, то линейная регрессия называется множественной регрессией.
Множественная линейная регрессия используется для определения математической взаимосвязи между рядом случайных величин. Другими словами, он исследует, как несколько независимых переменных связаны с одной зависимой переменной.
Он представлен уравнением: -

Очки: –

Его можно использовать для определения силы влияния независимых переменных на зависимые переменные.
2. Остатки должны быть нормально распределены, что означает, что ошибки не содержат важной информации.

3. Остатки не должны содержать закономерностей.

3. Полиномиальная регрессия —

Полиномиальная регрессия — это алгоритм регрессии, который моделирует взаимосвязь между зависимым и независимыми признаками как полином n-й степени.
Он следует только линейному шаблону, но имеет несколько изогнутую форму между ними.
Если ваши точки данных явно не подходят для линейной регрессии (прямая линия через все точки данных).
Когда точки данных расположены в нелинейной структуре, нам нужна модель полиномиальной регрессии.
Это повысит точность нашей модели.

Уравнение полиномиальной регрессии:

y = c + m1x1 + m2x12 + … + mnx1n

баллы:

1. Подгонка полинома более высокой степени для получения меньшей ошибки может привести к переобучению.

2. Построить отношения, чтобы увидеть соответствие и сосредоточиться, чтобы убедиться, что кривая соответствует характеру проблемы.

Метрики оценки для модели регрессии -

Чтобы построить и развернуть обобщенную модель, нам необходимо оценить модель по различным показателям, что поможет нам лучше оптимизировать производительность, настроить ее и получить лучший результат.

Это мера того, насколько неверна модель с точки зрения ее способности оценивать взаимосвязь между переменными.

Средняя абсолютная ошибка (MAE): -

MAE — это очень простая метрика, которая вычисляет абсолютную разницу между фактическими и прогнозируемыми значениями.
Это неэффективно на реальном наборе данных.

2. Среднеквадратическая ошибка (MSE): -

MSE является наиболее часто используемой и очень простой метрикой с небольшим изменением средней абсолютной ошибки.
Среднеквадратическая ошибка указывает, что нахождение квадрата разницы между фактическим и прогнозируемым значением.
Он наиболее эффективен на реальном наборе данных.

3. Среднеквадратическая ошибка (RMSE): -

Поскольку RMSE ясно из самого названия, это простой квадратный корень из среднеквадратичной ошибки.
Это наиболее часто используемые показатели в реальном наборе данных.

Все это функции потерь, потому что мы хотим их минимизировать.

4. R2square :-

Используется для проверки точности модели.
Чем выше точность, тем лучше модель.
r2score также известен как Коэффициент детерминанта или иногда также известен как Доброта соответствия.
Формулы для проверки точности: -

r2 = сумма((yпрогноз-yсредн)**2) / сумма((yсредн-yпрогноз)**2)

Преимущества алгоритмов регрессии: -

Алгоритмы регрессии работают исключительно хорошо для линейно разделимых данных.
Легче внедрять, интерпретировать и эффективно обучать.
To довольно хорошо справляется с переоснащением, используя методы уменьшения размерности, такие как регуляризация и перекрестная проверка.

Недостатки алгоритмов регрессии: -

Основным ограничением регрессии является предположение о линейности между независимой переменной и зависимой переменной, потому что в реальном мире данные не всегда линейно разделимы.
Регрессия весьма чувствительна к выбросам
Регрессия склонна к мультиколлинеарности, шуму и переоснащению.

Алгоритм параметрического и непараметрического машинного обучения: -

Параметрический: –

Любой алгоритм машинного обучения, если он обучается с использованием предварительно определенной сопоставленной функции, тогда этот алгоритм известен как параметрический алгоритм машинного обучения.
Параметрические алгоритмы быстрее обучаются.
Параметрические алгоритмы требуют меньше данных.
Параметрические алгоритмы не являются мощными моделями.
Примерами параметрического анализа являются: линейная регрессия, логистическая регрессия, SVM с линейным ядром.

2. Непараметрический :-

Непараметрический подразумевает, что алгоритм не делает никаких предположений о распределении данных.
Непараметрические алгоритмы требуют большого количества данных.
Непараметрические алгоритмы медленно обучаются.
Непараметрические алгоритмы имеют более высокую сложность модели.
Непараметрические алгоритмы имеют более мощные модели.
Примеры непараметрических: DecisionTree, RandomForest, SVM с ядрами rbf, KNN, алгоритмы усиления ансамбля.

Вы можете связаться со мной по адресу:

LinkedIn: https://www.linkedin.com/in/shubham-gangawane/

Гитхаб: https://github.com/ShubhamGangawane

Инстаграм: https://www.instagram.com/godnooob/

Спасибо за прочтение!

Регрессия

19 декабря 2021 г.