Понимание основ статистики, чтобы стать специалистом по данным

Feel free to follow me on Medium :)

Статистика - это форма математического анализа, в которой используются количественные модели и представления для заданного набора экспериментальных данных или реальных исследований. Главное преимущество статистики в том, что информация представлена ​​в удобной форме. Недавно я просмотрел все материалы по статистике и организовал 8 основных статистических концепций, чтобы стать специалистом по данным!

  • Понять тип аналитики
  • Вероятность
  • Главная тенденция
  • Изменчивость
  • Связь между переменными
  • Распределение вероятностей
  • Проверка гипотез и статистическая значимость
  • Регресс

Понять тип аналитики

Описательная аналитика сообщает нам, что происходило в прошлом, и помогает компании понять, как она работает, предоставляя контекст, который помогает заинтересованным сторонам интерпретировать информацию.

Диагностическая аналитика расширяет описательные данные и помогает понять, почему что-то происходило в прошлом.

Predictive Analytics предсказывает, что с наибольшей вероятностью произойдет в будущем, и дает компаниям полезную информацию на основе этой информации.

Предписывающая аналитика предоставляет рекомендации относительно действий, которые будут использовать прогнозы и направлять возможные действия для решения.

Вероятность

Вероятность - это мера вероятности того, что событие произойдет в случайном эксперименте.

Дополнение: P (A) + P (A ’) = 1.

Пересечение: P (A∩B) = P (A) P (B)

Союз: P (A∪B) = P (A) + P (B) −P (A∩B)

Условная вероятность: P (A | B) - это мера вероятности того, что одно событие произойдет в некоторой связи с одним или несколькими другими событиями. P (A | B) = P (A∩B) / P (B), когда P (B)> 0.

Независимые события: два события являются независимыми, если возникновение одного не влияет на вероятность возникновения другого. P (A∩B) = P (A) P (B), где P (A)! = 0 и P (B)! = 0, P (A | B) = P (A), P (B | A) = P (B)

Взаимоисключающие события: два события являются взаимоисключающими, если они не могут происходить одновременно. P (A∩B) = 0 и P (A∪B) = P (A) + P (B).

Теорема Байеса описывает вероятность события, основанную на предварительном знании условий, которые могут быть связаны с событием.

Главная тенденция

Среднее: среднее значение набора данных.

Медиана: среднее значение упорядоченного набора данных.

Режим: наиболее часто используемое значение в наборе данных. Если данные имеют несколько значений, которые встречаются наиболее часто, мы имеем мультимодальное распределение.

Асимметрия: мера симметрии.

Эксцесс: показатель того, являются ли данные с тяжелым или легким хвостом по сравнению с нормальным распределением.

Изменчивость

Диапазон: разница между самым высоким и самым низким значением в наборе данных.

Процентили, квартили и межквартильный размах (IQR)

  • Процентили - показатель, указывающий значение, ниже которого попадает определенный процент наблюдений в группе наблюдений.
  • Квантили - значения, которые делят количество точек данных на четыре более или менее равных части, или четверти.
  • Межквартильный размах (IQR) - показатель статистической дисперсии и изменчивости, основанный на разделении набора данных на квартили. IQR = Q3 − Q1

Дисперсия: среднее квадратическое отклонение значений от среднего для измерения степени разброса набора данных по отношению к среднему.

Стандартное отклонение: стандартная разница между каждой точкой данных и средним значением и квадратным корнем из дисперсии.

Стандартная ошибка (SE): оценка стандартного отклонения выборочного распределения.

Связь между переменными

Причинно-следственная связь: взаимосвязь между двумя событиями, при которых на одно событие влияет другое.

Ковариация: количественная мера совместной изменчивости двух или более переменных.

Корреляция. Измерьте взаимосвязь между двумя переменными в диапазоне от -1 до 1, нормализованная версия ковариации.

Распределение вероятностей

Функции распределения вероятностей

Вероятностная массовая функция (PMF): функция, которая дает вероятность того, что дискретная случайная величина в точности равна некоторому значению.

Функция плотности вероятности (PDF): функция для непрерывных данных, где значение в любой заданной выборке можно интерпретировать как обеспечивающую относительную вероятность того, что значение случайной переменной будет равно тот образец.

Функция совокупной плотности (CDF): функция, которая дает вероятность того, что случайная величина меньше или равна определенному значению.

Непрерывное распределение вероятностей

Равномерное распределение: также называемое прямоугольным распределением, это распределение вероятностей, при котором все результаты равновероятны.

Нормальное / гауссовское распределение: кривая распределения имеет форму колокола и симметрична и связана с центральной предельной теоремой, согласно которой выборочное распределение выборки приближается к нормальному распределению. по мере увеличения размера выборки.

Экспоненциальное распределение: распределение вероятностей времени между событиями в точечном процессе Пуассона.

Распределение хи-квадрат: распределение суммы квадратов стандартных нормальных отклонений.

Дискретное распределение вероятностей

Распределение Бернулли: распределение случайной величины, для которого требуется одно испытание и только 2 возможных результата, а именно 1 (успех) с вероятностью p и 0 (неудача) с вероятностью (1-p).

Биномиальное распределение: распределение количества успехов в последовательности из n независимых экспериментов, каждый из которых имеет только 2 возможных результата, а именно 1 (успех) с вероятностью p и 0 (отказ) с вероятностью (1-p).

Распределение Пуассона: распределение, которое выражает вероятность того, что заданное количество событий k произойдет в фиксированный интервал времени, если эти события происходят с известной постоянной средней скоростью λ и независимо от времени.

Проверка гипотез и статистическая значимость

Нулевая и альтернативная гипотеза

Нулевая гипотеза: общее утверждение, что нет никакой связи между двумя измеряемыми явлениями или никакой связи между группами. Альтернативная гипотеза: противоречит нулевой гипотезе.

При статистической проверке гипотез ошибка I типа - это отклонение истинной нулевой гипотезы, а ошибка II типа - отсутствие отклонения ложной нулевой гипотезы.

Интерпретация

P-значение: вероятность того, что статистика теста будет не менее экстремальной, чем наблюдаемая, при условии, что нулевая гипотеза верна. Когда p-значение ›α, мы не можем отвергнуть нулевую гипотезу, тогда как p-value ≤ α, мы отвергаем нулевую гипотезу и можем сделать вывод, что мы получили значимый результат.

Критическое значение: точка на шкале статистики теста, за пределами которой мы отклоняем нулевую гипотезу, и определяется на основе уровня значимости теста α. Это зависит от статистики теста, которая специфична для типа теста, и уровня значимости α, который определяет чувствительность теста.

Уровень значимости и область отклонения. Область отклонения фактически зависит от уровня значимости. Уровень значимости обозначается α и представляет собой вероятность отклонения нулевой гипотезы, если она верна.

Z-тест

Z -тест - это любой статистический тест, для которого распределение тестовой статистики при нулевой гипотезе может быть аппроксимировано нормальным распределением и проверяет среднее значение распределения, в котором мы уже знаем дисперсию генеральной совокупности. Поэтому многие статистические тесты могут быть удобно выполнены как приблизительные Z -тесты, если размер выборки большой или известна дисперсия генеральной совокупности.

Т-тест

T-тест - это статистический тест, если дисперсия генеральной совокупности неизвестна и размер выборки невелик (n ‹30).

Парная выборка означает, что мы дважды собираем данные от одной и той же группы, человека, предмета или объекта. Независимая выборка подразумевает, что две выборки должны были происходить из двух совершенно разных популяций.

ANOVA (дисперсионный анализ)

ANOVA - это способ узнать, значимы ли результаты эксперимента. Односторонний дисперсионный анализ сравнивает два средних значения из двух независимых групп, используя только одну независимую переменную. Двусторонний дисперсионный анализ - это расширение одностороннего дисперсионного анализа с использованием двух независимых переменных для расчета основного эффекта и эффекта взаимодействия.

Тест хи-квадрат

Тест хи-квадрат проверяет, соответствует ли модель приблизительно нормальности, когда у нас есть дискретный набор точек данных. Тест согласия определяет, соответствует ли выборка генеральной совокупности, подходящей для одной категориальной переменной к распределению. Тест хи-квадрат на независимость сравнивает два набора данных, чтобы определить, существует ли связь.

Регресс

Линейная регрессия

Допущения линейной регрессии

  • Линейное отношение
  • Многомерная нормальность
  • Нет или мало мультиколлинеарности
  • Нет или мало автокорреляции
  • Гомоскедастичность

Линейная регрессия - это линейный подход к моделированию взаимосвязи между зависимой переменной и одной независимой переменной. Независимая переменная - это переменная, которая контролируется в научном эксперименте для проверки влияния на зависимую переменную. Зависимая переменная - это переменная, которая измеряется в научном эксперименте.

Множественная линейная регрессия - это линейный подход к моделированию отношений между зависимой переменной и двумя или более независимыми переменными.

Шаги по запуску линейной регрессии

Шаг 1. Понять описание модели, причинно-следственную связь и направленность.

Шаг 2: проверьте данные, категориальные данные, отсутствующие данные и выбросы.

  • Выброс - это точка данных, которая значительно отличается от других наблюдений. Мы можем использовать метод стандартного отклонения и метод интерквартильного размаха (IQR).
  • Фиктивная переменная принимает только значение 0 или 1, чтобы указать влияние на категориальные переменные.

Шаг 3: простой анализ - проверьте эффект сравнения зависимой переменной с независимой переменной и независимой переменной с независимой переменной.

  • Используйте диаграммы разброса, чтобы проверить корреляцию
  • Мультиколлинеарность возникает, когда более двух независимых переменных сильно коррелированы. Мы можем использовать коэффициент инфляции дисперсии (VIF), чтобы измерить, если VIF ›5 сильно коррелирован, а если VIF› 10, безусловно, существует мультиколлинеарность среди переменных.
  • Срок взаимодействия подразумевает изменение наклона от одного значения к другому.

Шаг 4. Множественная линейная регрессия - проверьте модель и правильные переменные.

Шаг 5: анализ остатков

  • Проверьте нормальное распределение и нормальность остатков.
  • Гомоскедастичность описывает ситуацию, в которой член ошибки одинаков для всех значений независимых переменных и означает, что остатки равны по линии регрессии.

Шаг 6: интерпретация результатов регрессии

  • R-квадрат - это статистическая мера соответствия, которая показывает, насколько вариации зависимой переменной объясняются независимыми переменными. Более высокое значение R-Squared представляет меньшие различия между наблюдаемыми данными и подобранными значениями.
  • P-значение
  • Уравнение регрессии

Обо мне

Большое спасибо за то, что прочитали мою статью! Привет, я Ширли, начинающий аналитик бизнес-аналитики в U-Haul и уже получила степень магистра в области MS-Business Analytics в ASU. Если у вас есть вопросы, не стесняйтесь обращаться ко мне!

Email me at [email protected] and feel free to connect me on LinkedIn!