Для повышения точности и эффективности моделей машинного обучения требуются методы Advanced Statistical. Эти передовые технологии меняют профессию от глубокого обучения до обработки естественного языка.

В этом посте мы рассмотрим некоторые из увлекательных передовых статистических подходов, используемых в машинном обучении, и то, как они меняют наши представления о прогнозной аналитике. Являетесь ли вы опытным специалистом по данным или только начинаете, эта статья предоставит вам важную информацию о самых последних достижениях в области машинного обучения.

Список тем:

  1. Ковариация
  2. Коэффициент корреляции Пирсона
  3. График QQ
  4. Доверительный интервал
  5. Проверка гипотез
  6. Тест хи-квадрат и тест Anova

****** Тема 1: Ковариация *****

Ковариация — это мера того, насколько тесно связаны две переменные. Он широко используется в статистике и является полезным инструментом для определения связи между отдельными наборами данных. В этой статье мы дадим определение ковариации, объясним, как ее вычислить и почему она полезна.

Что такое ковариация?

Ковариация измеряет, как две переменные развиваются в тандеме. Ковариация между двумя переменными положительна, если значения одной переменной возрастают по мере увеличения значений другой переменной. Ковариация отрицательна, если значения одной переменной уменьшаются по мере увеличения значений другой переменной. Ковариация будет близка к 0, если две переменные не связаны.

Термин ковариация часто используется для описания взаимосвязи между двумя наборами данных. Например, если вы хотите выяснить, существует ли связь между возрастом человека и его зарплатой, вы можете вычислить ковариацию между двумя переменными. Если бы ковариация была положительной, это означало бы, что с увеличением возраста человека увеличивается и его доход.

Как определяется ковариация?

Ковариация между двумя переменными X и Y рассчитывается следующим образом:

Формула: Cov(X,Y) = (1/n) * ∑(Xi — X_mean) * (Yi — Y_mean)

Где:

1. Ковариация между X и Y обозначается Cov(X, Y).

2. Число n обозначает количество наблюдений в наборе данных.

3. Xi и Yi — значения X и Y для i-го наблюдения.

4. Средние значения X и Y представлены X_mean и Y_mean соответственно.

Эта формула может показаться сложной, но на самом деле она довольно проста. Он вычисляет только среднее значение произведения различий между каждым наблюдением и средним значением двух переменных.

Какова важность ковариации?

По многим причинам ковариация является полезным инструментом в статистике.

Одним из наиболее существенных преимуществ является то, что он может помочь нам в выявлении закономерностей и связей между двумя наборами данных. Расчет ковариации между ростом и весом человека, например, может показать, что более высокие люди, как правило, весят больше, чем более низкие. Эти знания можно применять в самых разных сферах, включая медицину, спорт и моду.

Ковариация также полезна тем, что ее можно использовать для расчета других важных статистических показателей, таких как корреляция. Корреляция является мерой силы связи между двумя переменными и определяется путем деления ковариации на произведение стандартных отклонений двух переменных. Это предлагает нам меру того, насколько тесно связаны две переменные, что может помочь нам прогнозировать будущие данные.

Давайте рассмотрим пример:

Предположим, вам интересно узнать о связи между часами, потраченными учеником на учебу, и его оценками на уроке математики. Вы собрали информацию от десяти студентов и задокументировали количество часов, которое каждый студент потратил на обучение, а также их оценки из 100.

В следующей таблице приведены данные:

Мы можем использовать следующую формулу для расчета корреляции между часами обучения и оценками по математике:

Cov(X,Y) = (1/n) * ∑(Xi — X_mean) * (Yi — Y_mean)

где X_mean и Y_mean – это средние значения учебных часов и оценок по математике соответственно.

Из этой формулы получаем следующие результаты:

X_mean = (2 + 3 + 5 + 6 + 7 + 8 + 9 + 10 + 11 + 12) / 10 = 7

Y_mean = (60 + 65 + 75 + 80 + 85 + 87 + 90 + 92 + 95 + 98) / 10 = 83,7

Cov(X,Y) = (1/10) * [(2–7)(60–83,7) + (3–7)(65–83,7) + … + (12–7) *(98–83,7)]

Cov(X,Y) = -49,77

Знак минус (-) означает, что существует отрицательная связь между количеством учебных часов и оценками по математике. Другими словами, по мере увеличения количества часов, потраченных на учебу, растут и оценки по математике.

Мы также можем использовать формулу для расчета отношения между часами обучения и оценками по математике:

Corr(X,Y) = Cov(X,Y) / (стандартное отклонение (X) * стандартное отклонение (Y))

где stddev(X) и stddev(Y) представляют собой стандартные отклонения часов обучения и оценок по математике соответственно.

Используя эту формулу, мы получаем:

stddev(X) = sqrt([Σ(Xi — X_mean)²]/n) = 3,162

stddev(Y) = sqrt([Σ(Yi — Y_mean)²]/n) = 12,148

Corr(X,Y) = -49,77 / (3,162 * 12,148) = -1,29

Корреляция отрицательна, демонстрируя сильную обратную связь между количеством учебных часов и оценками по математике.

Вот несколько моментов о ковариации:

  1. Положительная, отрицательная или нулевая ковариация: положительная ковариация между двумя переменными предполагает положительную связь, тогда как отрицательная ковариация указывает на отрицательную связь. Ковариация 0 указывает на то, что переменные не имеют линейной зависимости.
  2. Величина измерения может влиять на ковариацию. На ковариацию двух переменных влияют единицы, в которых они измеряются. Например, если одна переменная измеряется в метрах, а другая в сантиметрах, ковариация между двумя переменными будет иной, чем если бы обе переменные измерялись в метрах.
  3. Ковариация не стандартизирована. Ковариация, в отличие от корреляции, не стандартизирована, что означает, что величина ковариации зависит от единиц измерения. Это затрудняет сравнение ковариаций между наборами данных.
  4. Выбросы влияют на ковариацию. Ковариация чувствительна к выбросам, что означает, что если в наборе данных есть экстремальные значения, они могут существенно повлиять на ковариацию. При наличии выбросов это может затруднить интерпретацию ковариации.
  5. Ковариация — это мера линейной зависимости. Ковариация количественно определяет интенсивность и направление линейной связи между двумя переменными, но ничего не говорит нам о характере связи, кроме линейности. Если переменные имеют нелинейную связь, ковариация может неадекватно отражать основную связь.

Заключение:

Ковариация — ценный статистический инструмент для понимания связи между двумя наборами данных. Мы можем найти закономерности и взаимосвязи, которые не видны сразу, путем измерения ковариации между двумя переменными. Ковариацию также можно использовать для расчета других ключевых статистических показателей, таких как корреляция, которая может помочь нам прогнозировать будущие данные. Понимание ковариации — необходимая способность для всех, кто работает с данными.

****** Тема 2: Коэффициент корреляции Пирсона *****

Коэффициент корреляции Пирсона (r) – это показатель линейной зависимости между двумя переменными. Он имеет значение от -1 до 1, где -1 указывает на полную отрицательную корреляцию, 0 указывает на отсутствие корреляции, а 1 указывает на полную положительную корреляцию. Для анализа взаимосвязи между двумя переменными этот показатель широко используется в статистике, анализе данных и машинном обучении.

Расчет коэффициента корреляции Пирсона:

Коэффициент корреляции Пирсона можно рассчитать по следующей формуле:

Формула PCC (r) = (nΣxy — ΣxΣy) / [(nΣx² — (Σx)²)(nΣy² — (Σy)²)]^(1/2)

где:

  1. x и y две переменные представляют собой сумму значений
  2. ху есть произведение х и у
  3. x - это сумма значений x
  4. y - сумма значений y
  5. n - количество наблюдений

Допустим, у вас есть набор данных с двумя переменными, x и y. Вы можете рассчитать коэффициент корреляции Пирсона, выполнив следующие действия:

  1. Вычислить среднее значение x и y:
    Среднее значение x: Σx / n
    Среднее значение y: Σy / n
  2. Рассчитать отклонение от среднего для x и y:
    Отклонение для x: xi — x̄
    Отклонение для y: yi — ȳ
  3. Вычислите произведение отклонения от среднего для x и y:
    Произведение отклонения: (xi — x̄)(yi — ȳ)
  4. Рассчитать сумму произведения отклонения:
    Сумма произведения отклонения: Σ(xi — x̄)(yi — ȳ)
  5. Рассчитайте стандартное отклонение для x и y:
    Стандартное отклонение для x: [(Σ(xi — x̄)²) / (n-1)]^(1/2)
    Стандартное отклонение для y: [(Σ(yi — ȳ)²) / (n-1)]^(1/2)
  6. Вычислите коэффициент корреляции Пирсона:
    коэффициент корреляции Пирсона: r = Σ(xi — x̄)(yi — ȳ) / [(Σ(xi — x̄)²(n-1)) ^(1/2)] * [(Σ(yi - ȳ)²(n-1))^(1/2)]

Результирующее значение r находится в диапазоне от -1 до 1. Положительное значение r обозначает положительную корреляцию, а отрицательное число обозначает отрицательную корреляцию. Значение 0 показывает, что между двумя переменными нет связи.

Интерпретация коэффициента корреляции Пирсона:

Коэффициент корреляции Пирсона количественно определяет степень линейной зависимости между двумя переменными. Он не подразумевает причинно-следственной связи, а скорее оценивает силу и направление связи.

Чем сильнее корреляция между двумя переменными, тем ближе значение r к 1 или -1. Число, равное единице, представляет собой полную положительную корреляцию, а значение, равное единице, представляет собой идеальную отрицательная корреляция. Значение 0 показывает, что между двумя переменными нет связи.

Важно понимать, что корреляция не подразумевает причинно-следственной связи. Существенная связь между двумя переменными не означает, что одна является причиной другой. Возможно, корреляция вызвана третьей переменной.

В результате всегда важно с осторожностью интерпретировать результаты корреляции и принимать во внимание другие факторы, которые могут влиять на взаимосвязь.

Применение коэффициента корреляции Пирсона:

Коэффициент корреляции Пирсона обычно используется при анализе данных и моделировании. Среди приложений:

  1. Финансы. Коэффициент корреляции Пирсона используется для расчета взаимосвязи между ценами акций разных компаний. Это помогает определить, как две акции движутся по отношению друг к другу и к более крупному рынку. Эти данные могут помочь в диверсификации портфеля и управлении рисками.
  2. Психологическая корреляция Пирсона Термин "коэффициент" относится к измерению взаимосвязи между двумя психологическими факторами. Его можно, например, использовать для оценки взаимосвязи между IQ человека и успеваемостью.
  3. Медицинские исследования. Коэффициент корреляции Пирсона используется в медицинских исследованиях для оценки связи между различными медицинскими параметрами, такими как артериальное давление и частота сердечных сокращений. Его также можно использовать для оценки взаимосвязи между эффективностью лечения и симптомами пациента.
  4. Маркетинг: корреляция Пирсона в маркетинге Термин "коэффициент" относится к измерению связи между маркетинговыми факторами, такими как рекламный бюджет и доход от продаж. Это может помочь в определении эффективности маркетинговой кампании, а также в оптимизации маркетинговых методов.
  5. Образование: образование Pearson Коэффициент корреляции измеряет взаимосвязь между различными образовательными характеристиками, такими как посещаемость занятий и результаты тестов. Это может помочь в выявлении элементов, влияющих на академическую успеваемость, а также в разработке эффективных методов преподавания.
  6. Спорт. В спорте коэффициенты используются для количественной оценки связи между различными спортивными переменными, такими как индивидуальные результаты и командные победы. Это может помочь в определении аспектов, влияющих на производительность команды, а также в оптимизации подбора и обучения игроков.

Дополнительные факты о PCC

  1. Коэффициент корреляции Пирсона предполагает линейную связь между двумя переменными. Другие меры корреляции, такие как ранговая корреляция Спирмена или тау-корреляция Кендалла, могут быть более подходящими, если связь нелинейна.
  2. Выбросы влияют на коэффициент корреляции Пирсона. Выбросы могут оказывать существенное влияние на коэффициент корреляции, искажая интерпретацию связи между двумя переменными.
  3. Только две переменные могут быть измерены коэффициентом корреляции Пирсона. Другие статистические процедуры, такие как множественная регрессия, могут быть более подходящими, когда задействовано более двух переменных.
  4. Масштаб переменных может влиять на коэффициент корреляции Пирсона. Коэффициент корреляции может быть неестественно низким, если переменные находятся в разных масштабах.
  5. Коэффициент корреляции Пирсона можно определить с помощью таких программ, как Excel, R, Python и SPSS. Эти программы упрощают вычисление коэффициента корреляции и другие статистические анализы.

В заключение коэффициент корреляции Пирсона является эффективным инструментом для определения связи между двумя переменными. Он имеет множество применений в финансах, психологии, медицине, маркетинге, образовании и спорте. Однако очень важно использовать его с осторожностью и помнить о его ограничениях и предположениях.

****** Тема 3: график QQ *****

График Quantile-Quantile (QQ) – это графический инструмент для определения того, соответствует ли данный набор данных определенному распределению, например нормальному распределению. Это широко используемый метод в статистике и анализе данных для выявления отклонений от предполагаемого распределения. График QQ иллюстрирует расхождения между наблюдаемыми данными и теоретическим распределением. На этой странице подробно описаны графики QQ, в том числе способы их анализа и построения с помощью Python.

Понимание графика QQ:

График QQ представляет собой график, на котором сравниваются квантили двух распределений. Наблюдаемый набор данных — это одно из распределений, а теоретическое распределение, с которым мы его сравниваем, — другое. Например, если мы хотим увидеть, имеет ли данный набор данных нормальное распределение, мы должны сравнить квантили набора данных с квантилями нормального распределения. График QQ представляет собой точечную диаграмму, где ось X указывает теоретические квантили распределения, а ось Y отражает наблюдаемые квантили набора данных.

Интерпретация графика QQ:

Визуальная оценка и понимание графика QQ включает определение качества соответствия между наблюдаемыми данными и предполагаемым распределением.

Вот несколько методов анализа графика QQ:

  1. Ищите диагональную линию: если наблюдаемые данные точно отражают теоретическое распределение, на графике QQ будет отображаться диагональная линия. Чем лучше соответствие, тем ближе точки к диагональной линии.
  2. Если точки на графике QQ отличаются от диагональной линии, это указывает на то, что наблюдаемые данные не совсем точно отражают теоретическое распределение. Изогнутая или недиагональная линия предполагает неудовлетворительную посадку.
  3. Ищите места, которые находятся ниже или выше диагональной линии. Если наблюдаемые данные находятся ниже диагональной линии, это показывает, что наблюдаемые данные имеют более низкие значения в соответствующих квантилях. чем теоретическое распределение. Точно так же, если наблюдаемые данные выше теоретического распределения в соответствующих квантилях, это означает, что наблюдаемые данные выше теоретического распределения.
  4. Подумайте о размере выборки. Внешний вид графика QQ может зависеть от размера выборки. Ограниченный размер выборки может привести к большим колебаниям графика, что затруднит определение качества соответствия.
  5. Учитывайте теоретическое распределение.Выбранное теоретическое распределение может повлиять на внешний вид графика QQ. Если наблюдаемые данные не соответствуют указанному распределению, можно рассмотреть другое распределение.
  6. Необходимо использовать дополнительные статистические тесты. Хотя график QQ является ценным визуальным инструментом, он не является окончательным тестом на соответствие. Более количественные оценки согласия можно получить с помощью дополнительных статистических тестов, таких как тест Колмогорова-Смирнова или тест Андерсона-Дарлинга.

Давайте рассмотрим пример

Здесь используйте образец набора данных для высот.

Шаг 1. Импортируйте необходимые библиотеки:

import numpy as np
import plotly.express as px
import pandas as pd
from scipy.stats import norm

Шаг 2. Создайте образец набора данных о высотах:

heights = np.array([170, 165, 180, 172, 160, 168, 175, 182, 178, 160, 165, 185, 170, 175, 165, 172, 180, 170, 165, 182])

Шаг 3. Рассчитайте теоретические квантили, используя нормальное распределение:

theoretical_quantiles = norm.ppf(np.linspace(0, 1, len(heights)))

Шаг 4. Рассчитайте наблюдаемые квантили выборочных данных:

observed_quantiles = np.percentile(heights, np.linspace(0, 100, len(heights)))

Шаг 5. Постройте график QQ:

data = pd.DataFrame({'Theoretical Quantiles': theoretical_quantiles,
                     'Observed Quantiles': observed_quantiles})

fig = px.scatter(data, x='Theoretical Quantiles', y='Observed Quantiles',
                 title='QQ Plot of Height Distribution',
                 labels={'Theoretical Quantiles': 'Theoretical Quantiles', 'Observed Quantiles': 'Observed Quantiles'},
                 template='plotly_dark')

fig.update_traces(marker=dict(color='green'))

fig.show()

Результат:

Полученный график QQ продемонстрирует связь между наблюдаемыми квантилями высоты выборки и теоретическими квантилями нормального распределения. Если местоположения находятся рядом с диагональной линией, зарегистрированные высоты, вероятно, будут следовать нормальному распределению. Отклонения от диагональной линии указывают на то, что зарегистрированные высоты не совсем точно отражают нормальное распределение. Мы можем узнать о распределении высоты в выборке, проанализировав график QQ.

Как графики QQ могут помочь нам определить типы распределения?

Графики Q-Q, также известные как графики квантилей-квантилей, представляют собой графические инструменты, которые используются для сравнения сходства выборочного распределения с теоретическим распределением. Они особенно полезны для определения того, соответствует ли выборка определенному типу распределения.

Вот как диаграммы Q-Q могут помочь в определении типов распределения:

  1. Построение графика Q-Q. Чтобы построить график Q-Q, отсортируйте выборочные данные в порядке возрастания и ранжируйте каждое значение. Затем для каждого ранга вы вычисляете квантиль совпадения из теоретического распределения, с которым хотите сравнить. Стандартное нормальное распределение обычно используется в качестве теоретического эталона. На точечной диаграмме вы сравниваете квантили выборочных данных с квантилями теоретического распределения.
  2. Интерпретация. Точки на графике Q-Q будут лежать примерно вдоль прямой линии, если распределение выборки соответствует исследуемому теоретическому распределению. Наклон и точка пересечения этой линии представляют параметры теоретического положения и масштаба соответственно.
  3. Графики Q-Q также можно использовать для сравнения выборочного распределения с другими теоретическими распределениями, такими как экспоненциальное, гамма-распределение или распределение Вейбулла. Вы можете узнать о базовом типе распределения данных, увидев, какое теоретическое распределение дает наилучшее соответствие на графике Q-Q.
  4. Отклонения от линейности. На графике Q-Q отклонения от прямой линии могут дать информацию о типе распределения. Вот пара таких примеров:

А. Нормальное распределение. Если точки примерно выровнены вдоль прямой линии с наклоном, равным единице, и точкой пересечения, равной нулю, распределение выборки является нормальным.

Б. Распределение с перекосом. Если точки отклоняются от прямой линии, особенно на концах, распределение выборки может быть перекошено. Направление отклонения может выявить направление асимметрии.

C. Если точки отклоняются от прямой линии к верхним квантилям, это указывает на то, что выборочное распределение имеет более толстые хвосты, чем теоретическое распределение. Это показывает, что данные содержат выбросы или экстремальные значения.

Д. Распределение с тонкими хвостами: Если точки отклоняются от прямой линии в направлении нижних квантилей, это указывает на то, что выборочное распределение имеет более тонкие хвосты, чем теоретическое распределение. Это показывает, что в данных меньше экстремальных значений, чем прогнозировалось.

Асимметрия данных с графиками Q-Q:

Графики Q-Q могут предоставить визуальное свидетельство асимметрии данных. Асимметрия — это дисбаланс распределения, при котором один хвост длиннее или тяжелее другого. Оценивая геометрию проецируемых точек, графики Q-Q могут помочь выявить отклонения от симметрии в данных.

Вот как графики Q-Q могут помочь вам понять асимметрию ваших данных:

  1. Положительная асимметрия. Если данные асимметричны (больше правый хвост), точки на графике Q-Q будут отклоняться от прямой линии в верхних квантилях. Это означает, что наблюдаемые значения в выборке больше, чем предсказывает симметричное распределение. Отклонение указывает на то, что в данных могут быть большие или более экстремальные значения.
  2. Отрицательная асимметрия. Если данные имеют отрицательную асимметрию (более длинный левый хвост), точки на графике Q-Q будут отклоняться от прямой линии в нижних квантилях. Это означает, что наблюдаемые значения в выборке меньше, чем предсказывает симметричное распределение. Отклонение указывает на то, что данные могут содержать меньшие или экстремальные значения.
  3. Когда данные симметричны, точки на графике Q-Q часто располагаются вдоль прямой линии. Это означает, что наблюдаемые значения в выборке равномерно разбросаны вокруг прогнозируемых значений.

Следует отметить, что графики Q-Q обеспечивают только качественную оценку асимметрии и не являются точными мерами асимметрии. Для более точной количественной оценки асимметрии можно использовать статистические показатели, такие как коэффициент момента Пирсона, коэффициент асимметрии Боули или коэффициент асимметрии момента.

Различие между +ve, -ve и симметричными QQ-графиками асимметрии

Какова цель графика QQ в анализе данных?

График QQ используется в анализе данных, потому что он дает графический метод для определения того, следует ли конкретный набор данных теоретическому распределению, такому как нормальное, экспоненциальное или гамма. Очень важно иметь возможность определить, соответствует ли набор данных теоретическому распределению, потому что многие статистические подходы и модели основаны на предположении о конкретном распределении.

Графики QQ позволяют графически сравнивать наблюдаемое распределение данных с теоретическим распределением. Наблюдаемые данные показаны против ожидаемых квантилей теоретического распределения на графике QQ. Точки на графике QQ лягут на прямую линию, если наблюдаемые данные точно отражают теоретическое распределение. Если наблюдаемые данные отличаются от теоретического распределения, точки на графике QQ будут отклоняться от прямой линии.

Графики QQ можно использовать для ответа на множество различных вопросов о наборе данных, в том числе:

1. Соответствует ли набор данных определенному теоретическому распределению?

2. Содержит ли набор данных какие-либо выбросы?

3. Имеются ли какие-либо систематические отклонения от теоретического распределения, такие как асимметрия или большое количество хвостов?

4. Есть ли в выборке подгруппы или кластеры с разным распределением?

Графики QQ также можно использовать для сравнения распределений двух наборов данных. Сравнивая квантили двух наборов данных друг с другом, мы можем увидеть, как сравниваются распределения двух наборов данных.

Подводя итог, графики QQ — это мощный инструмент для анализа распределения набора данных и принятия решения о том, соответствует ли он конкретному теоретическому распределению. Они обеспечивают визуальное представление данных и могут помочь в идентификации выбросов, систематических отклонений и субпопуляций.

****** Тема 4: Доверительный интервал *****

Крайне важно уметь делать осмысленные выводы о населении на основе выборки данных при проведении статистического анализа. Однако выборочные данные могут предоставить только ограниченный объем информации, и часто требуется делать выводы о генеральной совокупности на основе этих данных. Здесь на помощь приходят доверительные интервалы.

Что такое доверительный интервал?

Доверительный интервал — это диапазон значений, по которым мы можем быть относительно уверены, что включено истинное значение параметра совокупности. Другими словами, это набор значений, который, как мы знаем, содержит параметр совокупности, который мы пытаемся оценить.

Например, если мы хотим оценить средний вес населения всех взрослых в Соединенных Штатах, мы можем выбрать случайную выборку из 1000 человек и вычислить их средний вес. Однако мы не можем предполагать, что средний вес выборки идентичен среднему весу генеральной совокупности. Вместо этого мы должны вычислить доверительный интервал, чтобы получить диапазон значений, содержащий средний вес генеральной совокупности.

Создание доверительного интервала:

Доверительный интервал рассчитывается на основе многочисленных параметров, включая размер выборки, стандартное отклонение генеральной совокупности (если известно) и желаемый уровень достоверности.

t-распределение, которое сравнимо с нормальным распределением, но учитывает размер выборки и неопределенность выборочной оценки стандартного отклонения генеральной совокупности, является наиболее часто используемым подходом для вычисления доверительного интервала. .

Ниже приведена формула для расчета доверительного интервала с использованием t-распределения:

CI = x̄ ± tα/2 * (s / √n)

Где:

CI = доверительный интервал

= выборочное среднее

tα/2 = критическое значение t для желаемого уровня уверенности и степеней свободы.

s = выборочное стандартное отклонение

n = размер выборки

Для расчета решающего значения t можно использовать t-таблицу или статистическую программу. Стьюдентное распределение имеет степени свободы, равные размеру выборки минус один.

Например, если у нас есть выборка из 1000 взрослых со средним весом 170 фунтов и стандартным отклонением выборки 25 фунтов, и мы хотим определить 95% доверительный интервал для среднего веса населения, мы можно применить формулу:

CI = 170 ± 1.96 * (25 / √1000)

CI = 170 ± 0.98

CI = (169.02, 170.98)

Как читать доверительный интервал:

Доверительный интервал — это набор значений, которые, как мы можем быть уверены, содержат параметр генеральной совокупности, который мы хотим оценить. Однако важно помнить, что этот диапазон значений не является точным приближением параметра популяции.

В предыдущем примере мы можем быть уверены на 95 %, что средний вес населения составляет от 169,02 до 170,98 фунтов. Однако мы не можем быть уверены, что реальная численность населения означает, что вес точно равен любой из этих цифр. Истинная популяция означает, что вес может быть несколько выше или ниже, чем верхняя и нижняя границы доверительного интервала.

Уровень достоверности доверительного интервала относится к доле раз, когда метод, используемый для построения интервала, дает интервал, содержащий истинный параметр генеральной совокупности, если процесс выборки повторяется много раз. Например, если мы создадим 100 95% доверительных интервалов, мы можем ожидать, что 95 из них будут содержать истинный параметр генеральной совокупности.

Заключение:

На основе выборочных данных доверительные интервалы являются полезным инструментом для прогнозирования параметров совокупности. Они предоставляют диапазон значений, которые, как мы можем быть уверены, содержат истинный параметр совокупности, который мы хотим оценить, а также учитывают уровень неопределенности в нашей выборочной оценке.

Важно помнить, что доверительный интервал не является точной оценкой параметра генеральной совокупности, и истинное значение может несколько выходить за пределы диапазона интервала. С другой стороны, уровень достоверности, связанный с интервалом, указывает на возможность того, что истинное число попадает в указанный диапазон.

В целом доверительные интервалы являются важным инструментом для статистиков и аналитиков данных для получения выводов о генеральной совокупности на основе выборочных данных. Мы можем сделать более точные и надежные выводы о интересующих нас популяциях, если поймем, как вычислять и интерпретировать доверительные интервалы.

****** Тема 5: Проверка гипотез *****

Проверка гипотез является важным методом в научных исследованиях и анализе данных для получения надежных и основанных на фактических данных выводов. Это позволяет исследователям делать выводы на уровне популяции на основе выборочных данных, обеспечивая понимание обоснованности идей и эффективности вмешательств. В этом посте мы рассмотрим основы проверки гипотез, включая ее цель, основные идеи и этапы.

Распознавание проверки гипотез:

Проверка гипотез — это, по сути, статистический подход к определению того, является ли утверждение о совокупности истинным или ложным. Процедура начинается с формулирования двух конкурирующих гипотез: нулевой гипотезы (H0) и альтернативной гипотезы (Ha). Нулевая гипотеза указывает на статус-кво или отсутствие эффекта, тогда как альтернативная гипотеза указывает на наличие существенного эффекта или связи.

Процедуры проверки гипотез:

  1. Формирование гипотез. Первый этап заключается в определении нулевой и альтернативной гипотез. Нулевая гипотеза часто утверждает, что между переменными не существует значимой разницы или связи, тогда как альтернативная гипотеза утверждает, что такая разница или связь существует.
  2. Выбор уровня значимости.Уровень значимости () влияет на то, будет ли принята или отвергнута нулевая гипотеза. Наиболее часто используемые уровни значимости: 0,05 (5%) и 0,01 (1%). Выбранный порог указывает допустимый риск совершения ошибки типа I или отклонения достоверной нулевой гипотезы.
  3. Сбор и анализ данных. После утверждения гипотез данные собираются путем выборки или экспериментов. В зависимости от характера вопроса исследования и типа данных данные затем подвергаются соответствующим процедурам статистического анализа, таким как t-тесты, тесты хи-квадрат или дисперсионный анализ (ANOVA).
  4. Вычисление тестовой статистики. Тестовая статистика количественно определяет разницу между наблюдаемыми данными выборки и предсказанными значениями при нулевой гипотезе. Расчет тестовой статистики зависит от используемого статистического теста.
  5. Определение критической области. Критическая область определяет диапазон значений тестовой статистики, при котором нулевая гипотеза будет отклонена. Он определяется уровнем значимости и используемым статистическим распределением. Если тестовая статистика попадает в критический диапазон, нулевая гипотеза отклоняется и принимается альтернативная гипотеза.
  6. Принятие решения. Решение о принятии или отклонении нулевой гипотезы принимается путем сравнения тестовой статистики с критической областью. Нулевая гипотеза отклоняется, если тестовая статистика попадает в критическую зону, что свидетельствует в пользу альтернативной гипотезы. Нулевая гипотеза принимается, если она лежит вне критической зоны.
  7. Выводы. Наконец, в зависимости от решения, принятого на предыдущем этапе, делаются выводы о совокупности. Если нулевая гипотеза отвергается, это означает, что имеется достаточно доказательств в поддержку альтернативной гипотезы. Если, с другой стороны, нулевая гипотеза принимается, это говорит о том, что недостаточно доказательств, чтобы отвергнуть нулевую гипотезу.

Распространенные ошибки проверки гипотез:

Хотя проверка гипотез является ценным инструментом, важно помнить о потенциальных опасностях.

Две частые ошибки:

  1. Ошибка типа I.Ошибка типа I возникает, когда нулевая гипотеза отвергается, несмотря на то, что она верна. Эта проблема связана с выбранным уровнем значимости и приводит к ложноположительному результату. Вероятность ошибки типа I можно уменьшить, используя более низкий порог значимости (например, 0,01 вместо 0,05).
  2. Ошибка типа II.Ошибка типа II, часто известная как ложноотрицательный результат, возникает, когда нулевая гипотеза, указывающая на отсутствие существенного эффекта или связи, принимается, несмотря на то, что она не соответствует действительности. Это неспособность отвергнуть нулевую гипотезу, когда она должна была быть отвергнута. Ошибки II типа пропорциональны мощности статистического теста. Способность статистического теста обнаруживать истинный эффект или связь, когда она существует, называется мощностью. На него влияют такие переменные, как размер выборки, величина эффекта и используемый уровень значимости. Предпочтение отдается тесту с высокой мощностью, поскольку он снижает вероятность совершения ошибки типа II.

Уменьшение числа ошибок типа II:

Исследователи могут использовать следующие меры, чтобы уменьшить свои шансы совершить ошибку типа II:

  1. Увеличение размера выборки. Увеличение размера статистической выборки увеличивает мощность теста, повышая вероятность выявления фактических эффектов или связей. Проведение анализа мощности перед сбором данных может помочь в определении размера выборки, необходимого для достижения желаемой степени мощности.
  2. Увеличить размер воздействия. Чем больше размер воздействия, тем легче обнаружить значимое различие или взаимосвязь. Исследователи могут попытаться создать вмешательства или исследования с большим воздействием, или они могут выбрать переменные, которые с большей вероятностью дадут видимые результаты.
  3. Снижение уровня значимости.Снижая уровень значимости (), исследователи могут снизить вероятность совершения ошибки типа I и повысить вероятность совершения ошибки типа II. Основываясь на индивидуальной учебной среде и последствиях каждого типа ошибок, следует тщательно рассмотреть компромисс между ошибками типа I и типа II.
  4. Рассмотрите альтернативные статистические тесты. Чувствительность различных статистических тестов к выявлению определенных видов эффектов различается. Изучение альтернативных тестов или использование нескольких методологий может помочь обеспечить тщательный анализ и повысить вероятность выявления соответствующих ассоциаций.

Приложения для проверки гипотез в машинном обучении:

Проверка гипотез важна во многих частях машинного обучения, таких как статистическая проверка и вывод для производительности модели, выбор функций и настройка параметров. Давайте рассмотрим некоторые из наиболее важных применений проверки гипотез в машинном обучении:

  1. Оценка и сравнение моделей. Проверка гипотез может использоваться для оценки и сравнения производительности различных моделей машинного обучения. Статистические тесты, такие как t-тесты или тесты перестановок, могут использоваться для определения того, значительно ли одна модель превосходит другую, путем разработки нулевой и альтернативной гипотез. При выборе оптимальной модели для конкретной задачи исследователи могут принимать решения на основе данных.
  2. Выбор функций. Проверка гипотез может помочь в выборе функций, то есть в процессе определения наиболее подходящих функций для модели машинного обучения. Статистические тесты, такие как тесты хи-квадрат или ANOVA, могут определить, следует ли включить функцию в модель или отбросить ее, формулируя нулевую гипотезу, которая предполагает отсутствие связи между функцией и целевая переменная и альтернативная гипотеза, утверждающая наличие значимой взаимосвязи.
  3. A/B-тестирование.A/B-тестирование часто используется в машинном обучении для сравнения эффективности различных тактик, алгоритмов или системных конфигураций. Проверка гипотез используется, чтобы определить, есть ли статистически значимая разница в производительности между двумя версиями. Исследователи могут определить, значительно ли одна версия превосходит другую, проводя эксперименты и разрабатывая соответствующие гипотезы, а затем делают выводы для оптимизации на основе данных.
  4. Проверка гипотез. Проверка гипотез может использоваться для оптимизации гиперпараметров модели машинного обучения. Исследователи могут оценить влияние различных значений гиперпараметров на производительность модели, разработав нулевую и альтернативную гипотезы. Статистические исследования, такие как тесты перестановки или парные t-тесты перекрестной проверки, могут помочь установить, значительно ли улучшает производительность модели настройка определенного гиперпараметра.
  5. Обнаружение аномалий. Аномалии или выбросы в наборе данных можно выявить с помощью проверки гипотез. Отклонения от предсказанных закономерностей можно найти, выдвигая гипотезы об обычном поведении данных и используя статистические тесты, такие как z-критерий или критерий Граббса. Это помогает идентифицировать нечетные элементы данных, которые могут свидетельствовать об аномалиях или ошибках.
  6. Оценка предвзятости и справедливости. Проверка гипотез может помочь проанализировать предвзятость и справедливость в моделях машинного обучения. Статистические тесты могут оценить, является ли модель предвзятой, путем формулирования гипотез, касающихся защищенных признаков (например, пола или расы) и предсказаний модели. Проверка гипотез может выявить, значительно ли различаются прогнозы модели в разных группах, и привести к попыткам уменьшить предвзятость и обеспечить справедливость.

Использование проверки гипотез в машинном обучении улучшает интерпретируемость, надежность и справедливость модели, позволяя ученым и исследователям данных принимать решения на основе данных и делать значимые выводы. Он способствует созданию более точных и надежных систем машинного обучения, обеспечивая оптимальное функционирование моделей, выбор важных функций и отсутствие предвзятости.

Наиболее распространенная проверка гипотез:

В статистическом анализе есть несколько регулярно используемых процедур проверки гипотез. Вот несколько самых популярных:

  1. T-критерий. Когда стандартное отклонение совокупности неизвестно, t-критерий используется для сравнения средних значений двух независимых выборок или для сравнения среднего значения выборки с известное среднее значение населения. Он широко используется в различных секторах, включая медицинские исследования, социальные науки и бизнес-аналитику.
  2. Anova. ANOVA — это статистический метод сравнения средних значений для трех или более групп. Он оценивает, существуют ли существенные различия между средними группами, и помогает определить, отличаются ли конкретные группы друг от друга. ANOVA широко используется в экспериментальных исследованиях и имеет приложения в психологии, биологии и маркетинговых исследованиях.
  3. Хи-квадрат. Тест хи-квадрат используется для анализа связи между категориальными переменными. Он определяет, существует ли статистически значимая разница между наблюдаемыми и ожидаемыми частотами в определенных категориях. В обзорных исследованиях, генетике и анализе контроля качества обычно используется критерий хи-квадрат.
  4. Корреляционный тест Пирсона. Корреляционный тест Пирсона исследует силу и направление линейной зависимости между двумя непрерывными переменными. Он определяет, существует ли значимая связь между переменными. Корреляционный тест Пирсона широко используется в психологии, экономике и социальных науках.
  5. Знаково-ранговый критерий Уилкоксона. Знаково-ранговый критерий Уилкоксона — это непараметрический критерий, который используется для сравнения двух связанных выборок. Он определяет, есть ли статистически значимая разница между парными наблюдениями. Когда данные нарушают допущения параметрических тестов или когда данные являются порядковыми, а не шкалой интервалов/отношений, обычно используется этот тест.
  6. U-критерий Манна-Уитни. U-критерий Манна-Уитни — это непараметрический критерий, который сравнивает медианы двух независимых выборок. Он оценивает, есть ли статистически значимая разница между распределениями двух групп. Когда данные не соответствуют предположениям параметрических тестов, используется U-критерий Манна-Уитни.

Тип используемого теста определяется темой исследования, типом данных и предположениями, связанными с каждым тестом. При выборе правильного метода проверки гипотез очень важно проанализировать конкретные требования исследования и проконсультироваться со статистическими источниками или специалистами.

Давайте рассмотрим пример A/B-тестирования:

Предположим, у вас есть интернет-магазин и вы хотите определить, улучшит ли изменение цвета кнопки «Купить сейчас» ваш сайт продажи. Нынешний цвет кнопки — синий, но вы хотите посмотреть, изменится ли изменение цвета на зеленый.

Настройка A/B-тестирования. Чтобы запустить A/B-тестирование, разделите посетителей вашего веб-сайта на две случайные группы: группу A и группу B. Группа A видит исходный веб-сайт. с синей кнопкой «Купить сейчас», в то время как группа Б видит вариант с зеленой кнопкой «Купить сейчас».

Сбор данных.В течение установленного периода времени вы собираете информацию о количестве посетителей и покупок, сделанных по каждой категории.

Сравнение и анализ. После сбора данных вы сравниваете результаты двух групп. Вы вычисляете коэффициенты конверсии для групп A и B, которые представляют собой процент посетителей, совершивших покупку.

Интерпретация данных. Если коэффициент конверсии для группы B (вариант с зеленой кнопкой) выше, чем коэффициент конверсии для группы A (исходный вариант с синей кнопкой), , это говорит о том, что зеленая кнопка положительно влияет на продажи.

Вывод. Если коэффициент конверсии для группы Б намного выше, можно предположить, что изменение цвета кнопки на зеленый увеличило продажи. Это исследование поддерживает использование зеленой кнопки «Купить сейчас» на вашем веб-сайте. Однако, если существенной разницы нет или коэффициент конверсии для группы B ниже, это показывает, что изменение цвета не оказало заметного эффекта, и вам следует оставить исходную синюю кнопку.

A/B-тестирование сравнивает различные варианты веб-страницы, функции или элемента дизайна, чтобы увидеть, какой из них работает лучше с точки зрения поведения пользователя, коэффициента конверсии или других показателей. Он помогает вам принимать решения на основе данных, позволяя тестировать изменения и анализировать их влияние на взаимодействие с пользователями и бизнес-результаты.

****** Тема 6: Тест хи-квадрат и тест Anova *****

Как аналитик данных, вы столкнетесь с различными статистическими тестами, которые можно использовать для анализа ваших данных. Тест хи-квадрат и тест ANOVA являются двумя наиболее часто используемыми тестами. Для категориальных данных используется критерий хи-квадрат, тогда как для непрерывных данных используется критерий ANOVA.

Тест хи-квадрат:

Тест хи-квадрат — это статистический тест, используемый для проверки того, имеют ли две категориальные переменные значительную взаимосвязь. Он используется, когда анализируемые данные являются категориальными, то есть они разделены на отдельные категории или группы. Пол (мужской или женский), цвет глаз (голубой, зеленый, карий и т. д.) и уровень образования (средняя школа, колледж, аспирантура и т. д.) — все это примеры категориальных данных.

Проще говоря:
критерий хи-квадрат – это статистический тест, используемый для определения того, связаны ли две переменные категории. Он указывает, существует ли значимая взаимосвязь между двумя переменными или любая наблюдаемая взаимосвязь может быть обусловлена ​​случайностью.

Таблица непредвиденных обстоятельств, также известная как таблица перекрестных таблиц, требуется для выполнения теста хи-квадрат. Таблица непредвиденных обстоятельств — это таблица, которая отображает частоту или количество комбинаций каждой категории для двух изучаемых переменных.

Вот пример таблицы непредвиденных обстоятельств:

Мы смотрим на связь между полом и тем, есть ли у кого-то машина в этой таблице. В строках указан пол человека (мужской или женский), а в столбцах указано, есть ли у него автомобиль (да или нет). Цифры в ячейках показывают частоту сочетания каждой категории.

После того, как вы заполнили таблицу непредвиденных обстоятельств, вы можете запустить тест Хи-квадрат. Тест вернет p-значение, которое указывает, является ли связь между двумя переменными статистически значимой. Значение p менее 0,05 показывает, что связь является статистически значимой.

Анализ ANOVA:

Тест ANOVA (дисперсионный анализ) используется для проверки наличия статистически значимой разницы между средними значениями двух или более групп. Он используется, когда анализируемые данные являются непрерывными, то есть измеряются по шкале. Примеры непрерывных данных включают возраст, рост и вес.

Проще говоря:
тест ANOVA – это статистический тест, используемый для оценки того, существует ли значительная разница в непрерывной переменной между двумя или более группами. Он указывает, значительно ли различаются средние значения групп или любые наблюдаемые различия могут быть объяснены случайностью.

Чтобы запустить тест ANOVA, вы должны вычислить дисперсию внутри каждой группы, а также дисперсию между группами. Дисперсия внутри каждой группы является мерой того, насколько данные в каждой группе отличаются от среднего значения группы. Дисперсия между группами является мерой того, насколько средние значения групп отличаются от общего среднего значения.

F-статистика и значение p будут предоставлены тестом ANOVA. F-статистика вычисляет отношение вариации между группами к дисперсии внутри групп. Высокая F-статистика означает, что вариация между группами больше, чем дисперсия внутри групп, что означает, что средние значения групп значительно различаются. Значение p указывает, является ли разница в средних значениях статистически значимой. Разница значима, если p-значение меньше 0,05.

Когда следует использовать каждый тест?

критерий хи-квадрат используется для определения того, связаны ли две категориальные переменные друг с другом. Например, вы можете использовать его, чтобы проверить, есть ли связь между полом и тем, курит ли кто-то или нет.

Тест ANOVA используется, чтобы определить, есть ли разница в непрерывной переменной между двумя или более группами. Вы можете использовать его, например, чтобы определить, есть ли разница в результатах тестов у детей в разных классах.

Чтобы определить тест, который необходимо выполнить, рассмотрите тип имеющихся у вас данных и тему исследования, на которое вы пытаетесь ответить. Используйте тест хи-квадрат с категориальными данными и тест ANOVA с непрерывными данными. Однако, в зависимости от характера вашего исследовательского вопроса и данных, можно использовать любой тест.

Следующее различие между этими двумя тестами:

Как мы видим, оба теста применимы для разных типов данных и проверяют разные предположения. Тест хи-квадрат используется для категорийных данных и используется для проверки связи между двумя переменными, тогда как тест ANOVA используется для непрерывных данных и используется для проверки различий в средних значениях между двумя или более группами.

Примечание. Имейте в виду, что в этом посте я попытался охватить все соответствующие концепции расширенной статистики. Однако, если есть какие-либо другие темы, которые, по вашему мнению, должны были быть освещены, но были по ошибке опущены, я был бы очень признателен за ваши комментарии и отзывы.

👋👋Оставайтесь с нами и удачного обучения!!👋👋

Найди меня здесь👇

GitHub || Линкедин || Сводка профиля