Понимание концепции дисперсии, ковариации и корреляции - один из важнейших шагов в машинном обучении.

Дисперсия

Математически дисперсия определяется как:

среднее значение квадратов отличий от среднего

Вот математическое представление того же:

Теперь вы задаетесь вопросом, о чем я, черт возьми, говорю? Итак, позвольте мне выразить это простым английским языком.

Дисперсия измеряет разброс между числами в наборе данных.

Вот графическое представление, чтобы дать вам четкое представление:

КОВАРИАНТНОСТЬ

Ковариация помогает нам измерить (и понять) линейные отношения между переменными.

Давайте рассмотрим пример, чтобы лучше понять это. Предположим, у меня есть две переменные - рост и вес, и я хочу измерить взаимосвязь между ними. Но прежде чем мы это сделаем, уверены ли мы, что между ними действительно существует связь? Как мне узнать, существуют ли между ними какие-либо отношения? Один из грубых способов понять это - проверить (например):

Если рост увеличивается с увеличением веса или

Рост уменьшается по мере увеличения веса

Обратитесь к приведенному ниже графику для ясного понимания:

На изображении выше очень ясно, что по мере увеличения роста вес учащегося также увеличивается независимо от того, девочка это студент или мальчик.

Такое наблюдение при наблюдении (с использованием диаграммы рассеяния) дает нам представление о линейной зависимости, разделяемой между переменными.

Ковариация в математической форме представлена ​​как:

Теперь мы рассмотрим два наблюдения, основанных на приведенной выше формуле ковариации:

COV (X, Y) = положительный, если по мере увеличения X Y также увеличивается

COV (X, Y) = отрицательный, если по мере увеличения X Y уменьшается

Давайте посмотрим на приведенные выше наблюдения с помощью графиков.

ОГРАНИЧЕНИЕ:

Давайте разберемся в ограничении ковариации на примере выше с ростом и весом. Для понимания предположим, что указанные выше значения высоты и веса указаны в дюймах и фунтах соответственно. Теперь мы преобразуем те же значения роста и веса в новую единицу измерения (скажем) высоту в футах и ​​вес в килограммах. В итоге мы получаем переменные, как указано ниже:

X → Высота в дюймах (исходная переменная)

Y → Вес в фунтах (исходная переменная)

X ’→ Одинаковая высота в футах

Y ’→ Одинаковый вес в килограммах

Итак, теперь, когда мы вычисляем ковариацию (X, Y) и ковариацию (X ’, Y’), значения не совпадают. Обратите внимание, что ковариация рассчитывается для того же набора данных, но конвертируется в другую единицу измерения.

COV (X, Y) ≠ COV (X ’, Y’)

Итак, говоря проще, на ковариацию влияет изменение метрической системы. Чтобы преодолеть указанное выше ограничение, мы используем коэффициент корреляции Пирсона (PCC)

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ ПИРСОНА (PCC)

Формула для PCC такая же, как и для ковариации с небольшой поправкой. Мы делим ковариацию на произведение стандартного отклонения x и y. Состав PCC:

Вы можете задаться вопросом, что мы только что сделали? И что еще более важно, почему?

Если вы помните концепцию стандартизации, мы сделали нечто очень похожее на это. Проще говоря, мы использовали блестящую концепцию стандартизации, чтобы освободить нашу ковариацию от метрической системы. Как упоминалось выше, PCC - это небольшая модификация ковариации, но дает нам гораздо лучшие результаты.

Значение PCC всегда находится в диапазоне от -1 до +1. т.е. -1 ≤ p ≤ +1

Давайте разберемся в различных случаях PCC, например, когда его значение будет отрицательным, когда оно будет положительным и когда оно будет нулевым.

Давайте получим интуитивное понимание приведенного выше графика.

Взгляните на рис. a в приведенной выше таблице. Есть два наблюдения:

  • Когда значение на оси X увеличивается, соответствующее значение на оси Y также увеличивается.
  • Все точки лежат точно на одной линии.

Благодаря двум вышеупомянутым наблюдениям, мы можем сказать, что значение PCC = +1

Далее рассмотрим рис. б. Здесь, хотя мое значение по оси Y увеличивается с увеличением значения по оси X, точки данных не лежат на одной линии, и, следовательно, мы заключаем, что значение PCC находится между 0 и 1.

Теперь рассмотрим рис. d. Опять же, у меня есть два наблюдения:

  • По мере увеличения значения на оси X значение на оси Y уменьшается.
  • Опять же, все точки лежат точно на одной линии.

Итак, на основании вышеизложенных наблюдений мы можем сказать, что значение PCC = -1

Аналогично в случае фиг. е. Значение оси Y уменьшается по мере того, как значение оси X увеличивается, но точки не лежат на одной линии, и, следовательно, мы заключаем, что значение PCC находится между -1 и 0

Ограничения PCC:

Если у вас зоркий глаз, вы, должно быть, заметили, что в вышеупомянутых различных случаях PCC мы использовали линейные отношения между двумя переменными. Что, если отношения между переменными сложны и нелинейны? Что-то вроде ниже:

Конечно, между указанными выше переменными есть некоторая взаимосвязь, но PCC не может ее уловить. Он хорошо работает только для линейных отношений.

Еще одно ограничение PCC заключается в том, что он не учитывает наклон линии. Что я имею в виду?

Рассмотрим приведенный ниже график.

Две линии имеют разные наклоны, что, в свою очередь, дает нам представление о том, как одна переменная изменяется по отношению к другой. PCC не собирает эту информацию. Обе линии имеют значение PCC = +1.

Чтобы преодолеть эти ограничения PCC, мы используем коэффициент ранговой корреляции Спирмена.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ РАНГА SPEARMAN (SRCC):

Лучший способ понять любую концепцию - использовать примеры. Давайте сделаем то же самое и здесь. Рассмотрим пример ниже:

Это набор данных, предоставленный нам. Выполним пошагово.

Шаг 0 (в глубине души разработчик Python): отсортируйте поле IQ в порядке возрастания. Создайте новый столбец Rank_IQ и дайте им рейтинг. Самый маленький элемент получает первый ранг. Проделайте то же самое с телевизором в течение нескольких часов в неделю. Создайте еще один столбец Rank_Hours of TV per week.

Шаг-1: SRCC сообщает, что для вычисления PCC в столбце рейтинги мы только что создали вместо фактических переменных IQ и часов просмотра ТВ в неделю.

Теперь, если Rank_IQ увеличивается, & Rank_Hours of TV в неделю также увеличивается, тогда SRCC = +1. Не имеет значения, является ли взаимосвязь линейной или сложной, потому что мы вычисляли PCC на основе рангов, а не фактических переменных.

Точно так же, если Rank_IQ увеличивается, а Rank_Hours TV в неделю уменьшается, тогда SRCC = -1.

Если все ранги являются разными целыми числами, их можно вычислить по формуле:

В нашем примере выше у нас есть разные ранги, и, следовательно, мы можем легко реализовать приведенную выше формулировку.

Ниже приведены подробные расчеты того же самого:

Преимущества SRCC:

  • Если выбросов мало, SRCC обрабатывает их лучше, чем PCC, поскольку учитывает ранг, а не фактические значения.
  • SRCC намного надежнее по сравнению с PCC
  • Он не зависит от метрической системы

Не стесняйтесь отвечать в разделе комментариев ниже, если у вас есть какие-либо вопросы / предложения. Ваш отзыв вдохновляет меня писать больше.

Удачного обучения!