Навигация в сложном мире дистрибутивов: полное руководство по различным дистрибутивам, которые вы должны знать, прежде чем приступать к анализу данных.

«Данные — это просто резюме тысяч историй — расскажите несколько таких историй, чтобы сделать данные значимыми».

— Чип и Дэн Хит.

Часть 3:

Область науки о данных — это область, которая вращается вокруг данных. Из приведенных данных можно сделать разные выводы. Распределения используются, чтобы дать подробное представление о данных. Как данные ведут себя по отношению к различным функциям и каковы их различные характеристики? Мы можем сделать выводы из распределения данных.

В науке о данных статистическое распределение относится к тому, как набор данных распределяется по диапазону значений или распределяется по разным значениям.

Это параметризованная математическая функция, которая дает вероятность различных результатов в случайной величине.

Распределение может быть представлено графически с использованием различных графиков, таких как гистограмма, график плотности или гистограмма. Форма распределения определяется его асимметрией.

В основном существует два типа распределений, основанных на результатах данных: дискретное распределение и непрерывное распределение.

Распределение, которое может работать с дискретным типом данных, известно как дискретное распределение. Например, сколько раз монета выпадает орлом за 3 броска.

  1. Распределение Бернулли
  2. Биномиальное распределение
  3. Равномерное распределение
  4. Геометрическое распределение
  5. распределение Пуассона

Распределение, которое может работать с непрерывным типом данных, известно как непрерывное распределение. Например, количество учеников в классе.

  1. Нормальное/гауссово распределение
  2. Экспоненциальное распределение
  3. Распределение Стьюдента T
  4. критерий хи-квадрат

Теперь мы подробно рассмотрим каждый дистрибутив.

А. Дискретные дистрибутивы

  1. Распределение Бернулли:

Распределение Бернулли - это тип дискретного распределения. Он назван в честь швейцарского математика Якоба Бернулли. Он используется только для бинарных выходов. Это распределение случайной величины, которая принимает значение 1 с вероятностью p и 0 с вероятностью q=1-p. Он применяется к экспериментам, в которых вопросы приводят к результатам, имеющим булево значение. Он может принимать такие значения, как успех/правда/да/один с вероятностью p, и такие значения, как неудача/ложь/нет/ноль с вероятностью 1-p.

Функция массы вероятности (PMF) случайной величины x, которая следует распределению Бернулли, имеет вид:

Здесь p — это вероятность того, что случайная величина x является «успехом», а вероятность 1-p — это вероятность того, что случайная величина x является «неудачей».

Из PMF мы можем рассчитать ожидаемое значение и дисперсию случайной величины x. Давайте рассмотрим x=1 для «успеха» и x=0 для «неудачи», тогда E(x) и Var(x):

Распределение Бернулли — это частный случай биномиального распределения, когда проводится одно испытание.

2. Биномиальное распределение:

Биномиальное распределение также является типом дискретного распределения. Это исходное распределение n идентичных распределений Бернулли. Это распределение вероятностей, которое описывает количество независимых испытаний, в которых каждое испытание имеет два возможных исхода: успех или неудачу. Всего имеется n одинаковых испытаний, каждое из которых не зависит от другого испытания.

Распределение имеет два параметра: вероятность успеха p и количество испытаний n. PMF определяется по формуле:

Поскольку биномиальное распределение представляет собой n-кратно идентичное распределение Бернулли, ожидаемое значение и дисперсия следующие:

3. Равномерное распределение:

Равномерное распределение может быть непрерывным или дискретным. Это распределение, в котором вероятность каждого исхода одинакова. Примером дискретного равномерного распределения является подбрасывание игральной кости, которая с равной вероятностью выпадет с любым числом от 1 до 6. Для непрерывного равномерного распределения в некотором диапазоне, скажем, от a до b, сумма вероятностей для всего диапазона должно быть равно 1. Они представляют собой семейство симметричных распределений вероятностей. Эти распределения описывают эксперимент, в котором имеется произвольный результат, находящийся между определенной границей. Вероятность непрерывного равномерного распределения:

4. Геометрическое распределение:

В испытании Бернулли количество последовательных неудач до достижения успеха представлено геометрическим распределением. Геометрическое распределение — это распределение вероятностей в статистике, которое описывает количество испытаний, необходимых для достижения успеха в серии независимых испытаний Бернулли, где каждое испытание имеет два возможных исхода (успех или неудача), а вероятность успеха постоянна для всех испытаний. .

Геометрическое распределение дает вероятность того, что для первого успеха требуется k-независимых испытаний, каждое с вероятностью успеха p. Если вероятность успеха в каждом испытании равна p, то вероятность того, что k-е испытание окажется первым успешным, равна:

Это тип дискретного распределения, означающий, что x может принимать только целые значения, начиная с 1. Он используется в таких приложениях, как контроль качества, для расчета вероятности отказа продукта после определенного количества проверок, в маркетинге маркетологи могут использовать геометрическое распределение для оценки того, сколько раз реклама должна быть просмотрена до совершения действия покупателем, например маркетинговой покупки.

5. Распределение Пуассона:

Распределение Пуассона — это дискретная функция вероятности, которая выражает вероятность данного количества событий в фиксированном интервале времени или пространства, когда события редки и распределены случайным образом. Он имеет единственный параметр, лямбда, который представляет среднюю скорость возникновения событий. Функция массы вероятности распределения Пуассона определяется выражением

где,

k - количество вхождений (k = 0,1,2,..)

e — число Эйлера (e = 2,71828)

Распределение Пуассона предполагает, что события независимы друг от друга и происходят с постоянной скоростью во времени или пространстве.

Б. Непрерывное распространение

  1. Нормальное/гауссово распределение:

«Нормальное распределение — универсальное явление, которое можно найти повсюду в мире природы», — Стивен Строгац.

Нормальное распределение является наиболее широко используемым непрерывным распределением вероятностей. Оно также известно как распределение Гаусса, оно названо в честь гения Карла Фридриха Гаусса.

Для случайной величины x, если мы построим функцию плотности вероятности, и она образует колоколообразную кривую, а среднее значение, мода и медиана равны, то переменная имеет нормальное распределение. Рост человека, технический фондовый рынок, бросание костей, подбрасывание монеты, уровень IQ студента и многое другое — примеры нормального распределения из нашей повседневной жизни. Большинство статистических данных и задач логического вывода подчиняются нормальному распределению.

Если мы рассмотрим случайную величину, которая будет принимать значения артериального давления человеческой популяции, имея среднее значение как m и стандартное отклонение как s. Мы соберем несколько выборок для представления случайной величины, каждая выборка имеет свое среднее значение. Теперь, если мы начнем собирать больше примеров и вычислять среднее значение для каждой выборки, то среднее значение выборки будет иметь свое собственное распределение вероятностей, которое будет сходиться к нормальному распределению по мере увеличения количества выборок. Это известно как Центральная предельная теорема.

Стандартное нормальное распределение следует эмпирическому правилу. Это правило гласит, что 68% данных лежат в пределах диапазона 1-го стандартного отклонения, 95% данных лежат в пределах диапазона 2-го стандартного отклонения и 99,7% данных лежат в диапазоне 3-го стандартного отклонения.

Нормальное распределение с средним значением 0 и стандартным отклонением 1 называется стандартным нормальным распределением.

2. Экспоненциальное распределение:

Экспоненциальное распределение — еще один тип непрерывного распределения. Это время между событиями в точечном процессе Пуассона. Если количество звонков, которые получает компания, подчиняется распределению Пуассона, то временной интервал между звонками подчиняется экспоненциальному распределению. Среднее значение и дисперсия экспоненциального распределения равны 1/λ, что означает, что экспоненциальное распределение имеет свойство без памяти. Это свойство указывает, что вероятность возникновения события в следующем временном интервале не зависит от того, сколько времени прошло с момента последнего события.

3. Распределение Стьюдента-T:

Это еще один член семейства непрерывных вероятностных распределений. Он возникает при оценке среднего значения нормально распределенной совокупности, когда размер выборки мал (менее 30) или когда неизвестно стандартное отклонение совокупности. Форма распределения T зависит от степеней свободы (df), которые представляют собой количество независимых наблюдений в выборке минус один. По мере увеличения степени свободы это распределение будет стремиться к нормальному распределению.

4. Распределение хи-квадрат:

Это наиболее широко используемое распределение вероятностей в статистике вывода, особенно при проверке гипотез и статистических выводах. Он принимает только неотрицательные значения и смещен вправо. Это частный случай гамма-распределения.

Статистические распределения повсюду в нашей повседневной жизни. Распределения играют жизненно важную роль для специалиста по обработке и анализу данных, чтобы знать данные в деталях, выполнять лучший анализ данных, делать разные выводы из данных, чтобы выбрать модель, подходящую для конкретного набора данных.

Если вы нашли эту статью полезной, подпишитесь на меня в Linkedin и medium.

Следите за обновлениями !!!

Спасибо !!!

Если вы еще не проверяли часть 1 и часть 2 этой серии статистических данных, то ознакомьтесь с ними, если вам это интересно!



«Основные концепции статистики, которые должен знать каждый специалист по данным.
Со статистикой легко лгать, Без статистики трудно говорить правду.pub.towardsai. сеть"





.