8 основных статистических концепций для науки о данных

Понимание основ статистики, чтобы стать специалистом по данным

Feel free to follow me on Medium :)

Статистика - это форма математического анализа, в которой используются количественные модели и представления для заданного набора экспериментальных данных или реальных исследований. Главное преимущество статистики в том, что информация представлена в удобной форме. Недавно я просмотрел все материалы по статистике и организовал 8 основных статистических концепций, чтобы стать специалистом по данным!

Понять тип аналитики
Вероятность
Главная тенденция
Изменчивость
Связь между переменными
Распределение вероятностей
Проверка гипотез и статистическая значимость
Регресс

Понять тип аналитики

Описательная аналитика сообщает нам, что происходило в прошлом, и помогает компании понять, как она работает, предоставляя контекст, который помогает заинтересованным сторонам интерпретировать информацию.

Диагностическая аналитика расширяет описательные данные и помогает понять, почему что-то происходило в прошлом.

Predictive Analytics предсказывает, что с наибольшей вероятностью произойдет в будущем, и дает компаниям полезную информацию на основе этой информации.

Предписывающая аналитика предоставляет рекомендации относительно действий, которые будут использовать прогнозы и направлять возможные действия для решения.

Вероятность

Вероятность - это мера вероятности того, что событие произойдет в случайном эксперименте.

Дополнение: P (A) + P (A ’) = 1.

Пересечение: P (A∩B) = P (A) P (B)

Союз: P (A∪B) = P (A) + P (B) −P (A∩B)

Условная вероятность: P (A | B) - это мера вероятности того, что одно событие произойдет в некоторой связи с одним или несколькими другими событиями. P (A | B) = P (A∩B) / P (B), когда P (B)> 0.

Независимые события: два события являются независимыми, если возникновение одного не влияет на вероятность возникновения другого. P (A∩B) = P (A) P (B), где P (A)! = 0 и P (B)! = 0, P (A | B) = P (A), P (B | A) = P (B)

Взаимоисключающие события: два события являются взаимоисключающими, если они не могут происходить одновременно. P (A∩B) = 0 и P (A∪B) = P (A) + P (B).

Теорема Байеса описывает вероятность события, основанную на предварительном знании условий, которые могут быть связаны с событием.

Главная тенденция

Среднее: среднее значение набора данных.

Медиана: среднее значение упорядоченного набора данных.

Режим: наиболее часто используемое значение в наборе данных. Если данные имеют несколько значений, которые встречаются наиболее часто, мы имеем мультимодальное распределение.

Асимметрия: мера симметрии.

Эксцесс: показатель того, являются ли данные с тяжелым или легким хвостом по сравнению с нормальным распределением.

Изменчивость

Диапазон: разница между самым высоким и самым низким значением в наборе данных.

Процентили, квартили и межквартильный размах (IQR)

Процентили - показатель, указывающий значение, ниже которого попадает определенный процент наблюдений в группе наблюдений.
Квантили - значения, которые делят количество точек данных на четыре более или менее равных части, или четверти.
Межквартильный размах (IQR) - показатель статистической дисперсии и изменчивости, основанный на разделении набора данных на квартили. IQR = Q3 − Q1

Дисперсия: среднее квадратическое отклонение значений от среднего для измерения степени разброса набора данных по отношению к среднему.

Стандартное отклонение: стандартная разница между каждой точкой данных и средним значением и квадратным корнем из дисперсии.

Стандартная ошибка (SE): оценка стандартного отклонения выборочного распределения.

Связь между переменными

Причинно-следственная связь: взаимосвязь между двумя событиями, при которых на одно событие влияет другое.

Ковариация: количественная мера совместной изменчивости двух или более переменных.

Корреляция. Измерьте взаимосвязь между двумя переменными в диапазоне от -1 до 1, нормализованная версия ковариации.

Распределение вероятностей

Функции распределения вероятностей

Вероятностная массовая функция (PMF): функция, которая дает вероятность того, что дискретная случайная величина в точности равна некоторому значению.

Функция плотности вероятности (PDF): функция для непрерывных данных, где значение в любой заданной выборке можно интерпретировать как обеспечивающую относительную вероятность того, что значение случайной переменной будет равно тот образец.

Функция совокупной плотности (CDF): функция, которая дает вероятность того, что случайная величина меньше или равна определенному значению.

Непрерывное распределение вероятностей

Равномерное распределение: также называемое прямоугольным распределением, это распределение вероятностей, при котором все результаты равновероятны.

Нормальное / гауссовское распределение: кривая распределения имеет форму колокола и симметрична и связана с центральной предельной теоремой, согласно которой выборочное распределение выборки приближается к нормальному распределению. по мере увеличения размера выборки.

Экспоненциальное распределение: распределение вероятностей времени между событиями в точечном процессе Пуассона.

Распределение хи-квадрат: распределение суммы квадратов стандартных нормальных отклонений.

Дискретное распределение вероятностей

Распределение Бернулли: распределение случайной величины, для которого требуется одно испытание и только 2 возможных результата, а именно 1 (успех) с вероятностью p и 0 (неудача) с вероятностью (1-p).

Биномиальное распределение: распределение количества успехов в последовательности из n независимых экспериментов, каждый из которых имеет только 2 возможных результата, а именно 1 (успех) с вероятностью p и 0 (отказ) с вероятностью (1-p).

Распределение Пуассона: распределение, которое выражает вероятность того, что заданное количество событий k произойдет в фиксированный интервал времени, если эти события происходят с известной постоянной средней скоростью λ и независимо от времени.

Проверка гипотез и статистическая значимость

Нулевая и альтернативная гипотеза

Нулевая гипотеза: общее утверждение, что нет никакой связи между двумя измеряемыми явлениями или никакой связи между группами. Альтернативная гипотеза: противоречит нулевой гипотезе.

При статистической проверке гипотез ошибка I типа - это отклонение истинной нулевой гипотезы, а ошибка II типа - отсутствие отклонения ложной нулевой гипотезы.

Интерпретация

P-значение: вероятность того, что статистика теста будет не менее экстремальной, чем наблюдаемая, при условии, что нулевая гипотеза верна. Когда p-значение ›α, мы не можем отвергнуть нулевую гипотезу, тогда как p-value ≤ α, мы отвергаем нулевую гипотезу и можем сделать вывод, что мы получили значимый результат.

Критическое значение: точка на шкале статистики теста, за пределами которой мы отклоняем нулевую гипотезу, и определяется на основе уровня значимости теста α. Это зависит от статистики теста, которая специфична для типа теста, и уровня значимости α, который определяет чувствительность теста.

Уровень значимости и область отклонения. Область отклонения фактически зависит от уровня значимости. Уровень значимости обозначается α и представляет собой вероятность отклонения нулевой гипотезы, если она верна.

Z-тест

Z -тест - это любой статистический тест, для которого распределение тестовой статистики при нулевой гипотезе может быть аппроксимировано нормальным распределением и проверяет среднее значение распределения, в котором мы уже знаем дисперсию генеральной совокупности. Поэтому многие статистические тесты могут быть удобно выполнены как приблизительные Z -тесты, если размер выборки большой или известна дисперсия генеральной совокупности.

Т-тест

T-тест - это статистический тест, если дисперсия генеральной совокупности неизвестна и размер выборки невелик (n ‹30).

Парная выборка означает, что мы дважды собираем данные от одной и той же группы, человека, предмета или объекта. Независимая выборка подразумевает, что две выборки должны были происходить из двух совершенно разных популяций.

ANOVA (дисперсионный анализ)

ANOVA - это способ узнать, значимы ли результаты эксперимента. Односторонний дисперсионный анализ сравнивает два средних значения из двух независимых групп, используя только одну независимую переменную. Двусторонний дисперсионный анализ - это расширение одностороннего дисперсионного анализа с использованием двух независимых переменных для расчета основного эффекта и эффекта взаимодействия.

Тест хи-квадрат

Тест хи-квадрат проверяет, соответствует ли модель приблизительно нормальности, когда у нас есть дискретный набор точек данных. Тест согласия определяет, соответствует ли выборка генеральной совокупности, подходящей для одной категориальной переменной к распределению. Тест хи-квадрат на независимость сравнивает два набора данных, чтобы определить, существует ли связь.

Регресс

Линейная регрессия

Допущения линейной регрессии

Линейное отношение
Многомерная нормальность
Нет или мало мультиколлинеарности
Нет или мало автокорреляции
Гомоскедастичность

Линейная регрессия - это линейный подход к моделированию взаимосвязи между зависимой переменной и одной независимой переменной. Независимая переменная - это переменная, которая контролируется в научном эксперименте для проверки влияния на зависимую переменную. Зависимая переменная - это переменная, которая измеряется в научном эксперименте.

Множественная линейная регрессия - это линейный подход к моделированию отношений между зависимой переменной и двумя или более независимыми переменными.

Шаги по запуску линейной регрессии

▍ Шаг 1. Понять описание модели, причинно-следственную связь и направленность.

▍ Шаг 2: проверьте данные, категориальные данные, отсутствующие данные и выбросы.

Выброс - это точка данных, которая значительно отличается от других наблюдений. Мы можем использовать метод стандартного отклонения и метод интерквартильного размаха (IQR).
Фиктивная переменная принимает только значение 0 или 1, чтобы указать влияние на категориальные переменные.

▍ Шаг 3: простой анализ - проверьте эффект сравнения зависимой переменной с независимой переменной и независимой переменной с независимой переменной.

Используйте диаграммы разброса, чтобы проверить корреляцию
Мультиколлинеарность возникает, когда более двух независимых переменных сильно коррелированы. Мы можем использовать коэффициент инфляции дисперсии (VIF), чтобы измерить, если VIF ›5 сильно коррелирован, а если VIF› 10, безусловно, существует мультиколлинеарность среди переменных.
Срок взаимодействия подразумевает изменение наклона от одного значения к другому.

▍ Шаг 4. Множественная линейная регрессия - проверьте модель и правильные переменные.

▍ Шаг 5: анализ остатков

Проверьте нормальное распределение и нормальность остатков.
Гомоскедастичность описывает ситуацию, в которой член ошибки одинаков для всех значений независимых переменных и означает, что остатки равны по линии регрессии.

▍ Шаг 6: интерпретация результатов регрессии

R-квадрат - это статистическая мера соответствия, которая показывает, насколько вариации зависимой переменной объясняются независимыми переменными. Более высокое значение R-Squared представляет меньшие различия между наблюдаемыми данными и подобранными значениями.
P-значение
Уравнение регрессии

Обо мне

Большое спасибо за то, что прочитали мою статью! Привет, я Ширли, начинающий аналитик бизнес-аналитики в U-Haul и уже получила степень магистра в области MS-Business Analytics в ASU. Если у вас есть вопросы, не стесняйтесь обращаться ко мне!

Email me at [email protected] and feel free to connect me on LinkedIn!