Выбросы: выбросы — это точки данных, которые находятся далеко от остальных точек данных.

Выбросы будут влиять на среднее значение и стандартное отклонение набора данных. Итак, мы должны найти их, а затем удалить эти выбросы.

Создание массива с одним выбросом и наблюдение за тем, как выброс влияет на среднее значение и стандартное отклонение.

Наблюдение за средним значением и стандартным отклонением массива после удаления этого выброса.

Всегда удаление выбросов может не помочь вам, иногда это может предоставить некоторую ключевую информацию о данных. Удаление выбросов или анализ выбросов зависит от постановки задачи.

Например, скажем, вы анализируете кровяное давление людей. В этом случае не следует удалять выбросы. Поскольку выбросы, то есть люди с высоким кровяным давлением, могут подвергаться риску сердечного приступа.

Допустим, вы пытаетесь найти среднюю заработную плату сотрудников компании. А минимальная и максимальная зарплата работника составляет 25 000 и 100 000 долларов соответственно в год. Возможно, из-за какой-то технической ошибки зарплата одного сотрудника оказалась равной $1000000 в год. Здесь мы должны удалить выброс. Так как это повлияет на результаты нашего исследования.

Удаление выбросов:

Мы можем использовать блочные диаграммы, чтобы найти какие-либо выбросы в наборе данных.

Рассматривая тот же пример,

Поскольку это небольшая выборка, мы можем сказать, что 100 — это выброс, просто взглянув на него. Если выборка очень большая, скажем, в ней около 1 00 000 столбцов, то невозможно найти выбросы, просматривая набор данных. Таким образом, мы можем использовать блочную диаграмму, чтобы найти выбросы.

Из этого графика ясно видно, что есть одна точка, которая расположена далеко от остальных точек данных.

Мы можем удалить этот выброс, используя межквартильный диапазон (IQR). IQR – это разница между третьим квартилем и первым квартилем.

Q1 считается нижним квартилем.
Q2 считается медианой.
Q3 считается верхним квартилем.

Q3-Q1 дает нам ширину поля на диаграмме. Где будет лежать большая часть значений. И некоторые точки данных будут лежать на усах. Выбросы — это точки данных, которые лежат далеко от прямоугольника, то есть в полтора раза от любой из сторон прямоугольника на блочной диаграмме.

Потому что, если точка данных ниже Q1–1,5*IDR или выше Q3+1,5*IDR, она слишком далека от центральных значений. Так что это считается выбросом.

Удаление выбросов в выборочном массиве, который был взят в качестве примера:

Нижняя граница и верхняя граница вышеуказанной последовательности:

После удаления выбросов:

Для просмотра блокнота — https://github.com/bharadwaj9674/machine-learning/tree/main/EDA/outliers

[email protected]

Гитхаб — https://github.com/bharadwaj9674

Linkedin — https://www.linkedin.com/in/bharadwaj9674/