19 декабря 2021 г.
Регрессия
Это контролируемый алгоритм машинного обучения.
Что такое машинное обучение?
технологии машинного обучения используются в повседневной жизни для поиска решений повседневных проблем таким образом, который поддерживается очисткой, подготовкой, анализом и прогнозным моделированием данных.
Эти алгоритмы машинного обучения играют очень важную роль не только в идентификации текста, изображений и видео, но и в маркетинге, обслуживании клиентов и многих других аспектах или областях, касающихся нашей обычной жизни.
Определение машинного обучения —
- Машинное обучение — это область исследования, которая дает компьютерам возможность учиться без явного программирования.
- Машинное обучение — это полуавтоматическое извлечение знаний из данных.
Типы машинного обучения —
- Контролируемое обучение: –
- В контролируемом обучении идея состоит в том, что мы собираемся научить компьютер тому, как что-то делать.
- Это процесс прогнозирования с использованием размеченных данных.
- Это один из основных типов машинного обучения, который используется в мире технологий.
- На самом деле контролируемое обучение можно разделить на две части:
1. Алгоритмы классификации: -
- Классификация содержит категориальные данные, которые предсказывают объекты.
- Классификация также может быть предпочтительнее, когда мы классифицируем данные по разным объектам.
Пример проблемы классификации.Вы хотите, чтобы программное обеспечение проверяло отдельные учетные записи клиентов и для каждой учетной записи решало, была ли она взломана/скомпрометирована.
2. Алгоритмы регрессии: -
- Регрессия содержит числовые данные, которые предсказывают числа.
- Алгоритмы регрессии используются для прогнозирования и прогнозирования.
Пример задачи регрессии. Классический пример алгоритма регрессии — прогнозирование цен на жилье.
- У вас есть большой запас одинаковых товаров, и вы хотите предсказать, сколько из них будет продано в течение следующих 3 месяцев.
2. Обучение без учителя:-
- В неконтролируемом обучении мы позволим ему учиться самому.
- Это процесс извлечения шаблонов или структуры из неразмеченных данных.
Пример неконтролируемого обучения: – Имея набор новостных статей в Интернете, сгруппируйте их в набор статей о различных историях.
3. Обучение с подкреплением: –
- С помощью этого алгоритма машину обучают принимать конкретные решения.
- Это работает следующим образом: машина подвергается воздействию окружающей среды, в которой она постоянно тренируется методом проб и ошибок. Эта машина учится на прошлом опыте и старается максимально использовать знания для принятия точных бизнес-решений.
Что такое регрессия -
- Регрессия — это процесс установления связи между независимой переменной (x) и зависимой переменной (y).
- Регрессионный анализ — это форма метода моделирования прогнозного анализа, который исследует взаимосвязь между функциями и метками.
- Зависимая переменная должна быть непрерывной по своей природе.
- Всякий раз, когда нам нужно предсказать число (непрерывные значения), мы будем использовать регрессию.
- Цель линейной регрессии — предсказать наиболее подходящую линию.
Типы линейной регрессии -
- Простая линейная регрессия: –
- В простой линейной регрессии мы пытаемся найти связь между одной независимой переменной (входной) и соответствующей зависимой переменной (выходной). Это можно выразить в виде прямой линии.
- Простая линейная регрессия используется для моделирования взаимосвязи между двумя непрерывными переменными. Часто цель состоит в том, чтобы предсказать значение выходной переменной (или отклика) на основе значения входной (или предиктора) переменной.
- Он представлен уравнением y = mx + c.
- где,
y = зависимая переменная.
x = независимая переменная.
m = коэффициент регрессии, наклона или градиента.
c = перехватчик.
Здесь для определения наклона (м) используются следующие формулы:
- m (коэффициент регрессии) = Σ [(xi — x) (yi — y)] / Σ [(xi — x)2].
Очки:
- Линейная регрессия очень чувствительна к выбросам, используемым в случае данных большого размера.
- Между независимыми и зависимыми переменными должна быть линейная зависимость.
- Есть только одна независимая и зависимая переменная.
- Тип линии регрессии: наиболее подходящая прямая.
2. Множественная линейная регрессия —
- Если в прогнозировании цели или результата участвует более одного фактора или независимой переменной, то линейная регрессия называется множественной регрессией.
- Множественная линейная регрессия используется для определения математической взаимосвязи между рядом случайных величин. Другими словами, он исследует, как несколько независимых переменных связаны с одной зависимой переменной.
- Он представлен уравнением: -
Очки: –
- Его можно использовать для определения силы влияния независимых переменных на зависимые переменные.
- 2. Остатки должны быть нормально распределены, что означает, что ошибки не содержат важной информации.
3. Остатки не должны содержать закономерностей.
3. Полиномиальная регрессия —
- Полиномиальная регрессия — это алгоритм регрессии, который моделирует взаимосвязь между зависимым и независимыми признаками как полином n-й степени.
- Он следует только линейному шаблону, но имеет несколько изогнутую форму между ними.
- Если ваши точки данных явно не подходят для линейной регрессии (прямая линия через все точки данных).
- Когда точки данных расположены в нелинейной структуре, нам нужна модель полиномиальной регрессии.
- Это повысит точность нашей модели.
Уравнение полиномиальной регрессии:
- y = c + m1x1 + m2x12 + … + mnx1n
баллы:
1. Подгонка полинома более высокой степени для получения меньшей ошибки может привести к переобучению.
2. Построить отношения, чтобы увидеть соответствие и сосредоточиться, чтобы убедиться, что кривая соответствует характеру проблемы.
Метрики оценки для модели регрессии -
Чтобы построить и развернуть обобщенную модель, нам необходимо оценить модель по различным показателям, что поможет нам лучше оптимизировать производительность, настроить ее и получить лучший результат.
Это мера того, насколько неверна модель с точки зрения ее способности оценивать взаимосвязь между переменными.
- Средняя абсолютная ошибка (MAE): -
- MAE — это очень простая метрика, которая вычисляет абсолютную разницу между фактическими и прогнозируемыми значениями.
- Это неэффективно на реальном наборе данных.
2. Среднеквадратическая ошибка (MSE): -
- MSE является наиболее часто используемой и очень простой метрикой с небольшим изменением средней абсолютной ошибки.
- Среднеквадратическая ошибка указывает, что нахождение квадрата разницы между фактическим и прогнозируемым значением.
- Он наиболее эффективен на реальном наборе данных.
3. Среднеквадратическая ошибка (RMSE): -
- Поскольку RMSE ясно из самого названия, это простой квадратный корень из среднеквадратичной ошибки.
- Это наиболее часто используемые показатели в реальном наборе данных.
- Все это функции потерь, потому что мы хотим их минимизировать.
4. R2square :-
- Используется для проверки точности модели.
- Чем выше точность, тем лучше модель.
- r2score также известен как Коэффициент детерминанта или иногда также известен как Доброта соответствия.
- Формулы для проверки точности: -
r2 = сумма((yпрогноз-yсредн)**2) / сумма((yсредн-yпрогноз)**2)
Преимущества алгоритмов регрессии: -
- Алгоритмы регрессии работают исключительно хорошо для линейно разделимых данных.
- Легче внедрять, интерпретировать и эффективно обучать.
- To довольно хорошо справляется с переоснащением, используя методы уменьшения размерности, такие как регуляризация и перекрестная проверка.
Недостатки алгоритмов регрессии: -
- Основным ограничением регрессии является предположение о линейности между независимой переменной и зависимой переменной, потому что в реальном мире данные не всегда линейно разделимы.
- Регрессия весьма чувствительна к выбросам
- Регрессия склонна к мультиколлинеарности, шуму и переоснащению.
Алгоритм параметрического и непараметрического машинного обучения: -
- Параметрический: –
- Любой алгоритм машинного обучения, если он обучается с использованием предварительно определенной сопоставленной функции, тогда этот алгоритм известен как параметрический алгоритм машинного обучения.
- Параметрические алгоритмы быстрее обучаются.
- Параметрические алгоритмы требуют меньше данных.
- Параметрические алгоритмы не являются мощными моделями.
- Примерами параметрического анализа являются: линейная регрессия, логистическая регрессия, SVM с линейным ядром.
2. Непараметрический :-
- Непараметрический подразумевает, что алгоритм не делает никаких предположений о распределении данных.
- Непараметрические алгоритмы требуют большого количества данных.
- Непараметрические алгоритмы медленно обучаются.
- Непараметрические алгоритмы имеют более высокую сложность модели.
- Непараметрические алгоритмы имеют более мощные модели.
- Примеры непараметрических: DecisionTree, RandomForest, SVM с ядрами rbf, KNN, алгоритмы усиления ансамбля.
Вы можете связаться со мной по адресу:
Инстаграм: https://www.instagram.com/godnooob/
Спасибо за прочтение!