Качество данных является предварительным требованием перед подачей данных в модель машинного обучения.

В проектах машинного обучения есть популярная поговорка «мусор в мусоре». Чтобы повысить точность результатов EDA и модели машинного обучения, мы выполняем задачи предварительной обработки данных. Предварительная обработка данных также относится к манипулированию данными, удалению или добавлению дополнительных данных. В этом блоге мы узнаем о различных предположениях регрессионного анализа.

Прежде чем погрузиться глубже, давайте освежим в памяти некоторые основные понятия, например, что такое регрессия. Какие существуют типы регрессии? А когда и зачем использовать регрессионное ML-моделирование.

Что такое регрессия?

Регрессионный анализ используется для представления взаимосвязей между зависимыми функциями и одной или несколькими независимыми функциями. Это помогает понять силу взаимосвязи между функциями и выполнить будущий анализ.

Типы регрессии?

Ниже приведены различные методы регрессии:

  • Линейная регрессия
  • Лассо-регрессия
  • Ридж-регрессия
  • Логистическая регрессия
  • Полиномиальная регрессия

Почему регрессия?

› Мы проводим регрессионный анализ, чтобы предсказать зависимые функции на основе заданных независимых функций.

› Чтобы понять влияние независимых функций на зависимую функцию, мы проводим регрессионный анализ. Для этого мы используем различную статистику, чтобы объяснить влияние.

Каковы предположения регрессионной модели?

Эти допущения применимы как для простой, так и для множественной регрессии. Простая регрессия означает, что выборка имеет один зависимый и один независимый признак.

Множественная регрессия означает, что выборка имеет несколько независимых признаков.

Для регрессионного анализа мы можем сделать несколько допущений:

а. Выбранная выборка является репрезентативной для населения.

Чтобы определить, является ли выбранная выборка репрезентативной для совокупности, необходимо учитывать несколько факторов. Во-первых, размер выборки должен быть достаточно большим, чтобы точно представлять генеральную совокупность. Чем больше размер выборки, тем меньше ошибка выборки и выше репрезентативность выборки.

Во-вторых, метод выборки должен быть случайным и непредвзятым. Случайная выборка означает, что каждый член совокупности имеет равные шансы попасть в выборку. Беспристрастная выборка означает, что на отбор лиц не влияют никакие факторы, которые могут исказить результаты.

В-третьих, демографические характеристики и характеристики выборки должны точно соответствовать характеристикам населения. Это гарантирует, что выборка не будет смещена в сторону какой-либо конкретной группы или характеристики.

В целом, если выборка соответствует этим критериям, она с большей вероятностью будет репрезентативной для генеральной совокупности. Однако важно иметь в виду, что никакая выборка не может полностью репрезентировать совокупность, и в любом статистическом анализе данных всегда будет присутствовать некоторая степень ошибки и неопределенности.

б. Существует линейная связь между независимыми функциями и зависимыми функциями.

Чтобы определить, существует ли линейная связь между независимыми и зависимыми объектами, важно нанести данные на график и визуально изучить расположение точек на графике. Если кажется, что точки следуют прямой линии или шаблону, который может быть аппроксимирован прямой линией, то может иметь место линейная зависимость.

В качестве альтернативы для оценки взаимосвязи между переменными также можно использовать график рассеяния или коэффициент корреляции. При наличии линейной зависимости можно провести линейный регрессионный анализ для количественной оценки силы и направления связи.

Регрессионный анализ дает линию наилучшего соответствия, которая представляет общую тенденцию в данных. Важно отметить, что линейная связь между признаками не обязательно подразумевает причинно-следственную связь. Другие факторы, такие как смешанные признаки или случайная корреляция, могут влиять на взаимосвязь между признаками.

Поэтому важно с осторожностью интерпретировать результаты линейного регрессионного анализа и учитывать другие факторы, которые могут влиять на взаимосвязь между признаками.

в. Все функции нормально распределены; для проверки постройте гистограмму остатков.

Чтобы проверить, нормально ли распределены все функции, можно построить гистограмму остатков. Остатки — это разница между фактическими значениями зависимого признака и прогнозируемыми значениями, основанными на регрессионном анализе. Вот шаги для построения гистограммы остатков:

Сначала выполните линейный регрессионный анализ данных, чтобы получить прогнозируемые значения и остатки. Постройте гистограмму остатков. Это можно сделать в большинстве пакетов статистического программного обеспечения, таких как R или Python, с помощью функции «hist». Изучите гистограмму, чтобы увидеть, напоминает ли она нормальное распределение. Нормальное распределение характеризуется колоколообразной кривой, при которой большая часть данных приходится на середину, а меньше точек данных — на крайние точки.

Если гистограмма остатков примерно нормально распределена, то это предполагает, что зависимый признак и независимый признак (ы) также нормально распределены. Это важно, потому что многие статистические тесты предполагают нормальное распределение данных.

Если гистограмма остатков не имеет нормального распределения, это может указывать на то, что данные нарушают предположение о нормальности, и для анализа данных могут потребоваться альтернативные статистические методы. Кроме того, может потребоваться выяснить, почему данные не распределяются нормально, и можно ли применить какие-либо преобразования, чтобы сделать данные более нормальными.

д. Выбросов нет.

Выбросы — это аномальные значения данных в распределении данных.

проверьте, есть ли какие-либо выбросы в данных, можно использовать статистический тест для выявления точек данных, которые значительно отличаются от остальных данных. Одним из часто используемых тестов является тест Тьюки, который идентифицирует выбросы как точки данных, которые более чем в 1,5 раза падают на межквартильный диапазон (IQR) ниже первого квартиля или выше третьего квартиля. Вот шаги по использованию теста Тьюки для обнаружения выбросов:

Сначала рассчитайте IQR, вычитая первый квартиль из третьего квартиля. Умножьте IQR на 1,5, чтобы получить порог выброса. Определите любые точки данных, которые находятся ниже первого квартиля минус порог выброса или выше третьего квартиля плюс порог выброса. Изучите выявленные точки данных, чтобы определить, являются ли они истинными выбросами или их следует удалить из набора данных.

При наличии выбросов может потребоваться их удаление, чтобы гарантировать, что они не повлияют на результаты анализа. Однако важно проявлять осторожность при удалении выбросов, так как это также может повлиять на общие результаты анализа. Также важно изучить причины выбросов и определить, вызваны ли они ошибками в данных или представляют собой истинные аномалии, которые необходимо учитывать при анализе.

  • Все независимые функции линейно независимы.

Чтобы проверить, являются ли все независимые функции линейно независимыми, можно построить независимые значения друг против друга и найти корреляцию между ними. Если существует значительная корреляция между двумя или более независимыми переменными, это предполагает, что они не могут быть полностью независимыми и могут быть избыточными или коллинеарными. Вот шаги, чтобы проверить, являются ли независимые переменные линейно независимыми:

Во-первых, постройте независимые значения друг против друга, используя точечную диаграмму. Изучите график рассеяния, чтобы увидеть, есть ли какая-либо различимая закономерность или тенденция. Если есть четкая закономерность, это может свидетельствовать о наличии корреляции между независимыми переменными. Рассчитайте коэффициент корреляции между каждой парой независимых переменных. Коэффициент корреляции 0 указывает на отсутствие корреляции, а коэффициент корреляции 1 или -1 указывает на полную положительную или отрицательную корреляцию соответственно. Изучите коэффициенты корреляции, чтобы увидеть, существует ли значительная корреляция между какой-либо парой независимых переменных. Если есть значительная корреляция, это может свидетельствовать о том, что переменные не являются полностью независимыми.

Если обнаруживается, что некоторые из независимых переменных не являются полностью независимыми, может потребоваться либо удалить одну из коррелирующих переменных, либо объединить их в одну переменную с использованием такого метода, как анализ основных компонентов (АГК). Важно тщательно рассмотреть причину корреляции и потенциальное влияние на результаты анализа, прежде чем вносить какие-либо изменения в независимые переменные.

е. Для множественной регрессии должно быть как минимум в пять раз больше пар данных, чем зависимых переменных.

Для множественной регрессии должно быть как минимум в пять раз больше пар данных, чем зависимых переменных, чтобы гарантировать наличие достаточного количества данных для точной оценки параметров модели и предотвращения переобучения. И вот почему: при множественной регрессии количество параметров, которые необходимо оценить, увеличивается с увеличением количества независимых переменных. В частности, для k независимых переменных модель будет иметь k + 1 параметр (k коэффициентов регрессии и 1 отрезок).

Если точек данных недостаточно по отношению к количеству параметров, модель может переобучить данные, что означает, что она соответствует шуму или случайности в данных, а не лежащей в основе взаимосвязи между независимыми и зависимыми переменными. Это может привести к снижению производительности модели на новых, невидимых данных.

Чтобы обеспечить достаточное количество точек данных относительно количества параметров, общее эмпирическое правило состоит в том, что пар данных должно быть как минимум в пять раз больше, чем зависимых переменных.

Например, если есть три зависимых переменных, должно быть не менее 15 пар данных. Однако важно отметить, что это приблизительный ориентир, и фактическое количество необходимых точек данных может варьироваться в зависимости от сложности модели, количества шума в данных и других факторов. Поэтому всегда важно использовать надежные статистические методы, чтобы определить, достаточно ли данных для поддержки модели.

Предложения:

Это некоторые основные шаги, когда мы начинаем регрессионный анализ или строим модель ML. Теоретическое и статистическое понимание очень важно наряду с практической практикой, когда мы имеем дело с данными. Я надеюсь, что эта статья поможет вам в выполнении регрессионного анализа. Вы можете подписаться на меня в LinkedIn и на GitHub. Ваша любовь и поддержка помогут мне написать больше о науке о данных и искусственном интеллекте.

Спасибо

Лал Бабу Рэй

Аналитик по науке о данных.