Введение:
Вероятность — очень важное математическое понятие для науки о данных, используемое, среди прочего, для проверки гипотез, теоремы Байеса и интерпретации результатов машинного обучения. В этом блоге мы рассмотрим некоторые основные концепции вероятности. Давайте начнем.
Таблицы частот:
Это способ представить количество категорий в распределении. Рассмотрим распределение 5 цветных шаров: красный, красный, зеленый, синий, красный. Таблица частот для того же будет:
Гистограммы и гистограммы:
Гистограмма используется для описания распределения непрерывных переменных. Википедия описывает гистограмму как оценку распределения вероятностей непрерывной переменной. Далее в этой статье мы увидим, что такое непрерывные переменные и распределения вероятностей. Ниже приведен пример гистограммы, на которой мы строим частоту появления товаров в магазине.
Точно так же гистограммы можно использовать для построения категориальных переменных, ниже приведен пример гистограммы. Например, постройте график средней продолжительности поездки для каждого поставщика такси.
Вероятность:
Давайте сначала посмотрим на некоторые термины, связанные с вероятностью:
Эксперимент: это пробная версия с набором четко определенных выходных данных.
Результат: это возможный результат эксперимента.
События: набор результатов эксперимента.
Вероятность можно определить как вероятность того, что событие произойдет. Это значение вероятности находится между 0 и 1.
Сумма вероятностей всех возможных событий, происходящих в эксперименте, равна 1.
Формула вероятности:
Вероятность (событие) = количество желаемых результатов / общее количество результатов.
Пример: для эксперимента по подбрасыванию правильной монеты набор: {орел, решка} будет исходом. Будет 2 возможных события, одно выпадет орлом, второе выпадет решкой. Поскольку монета честная, в отличие от той, что используется в Sholay (о чем должны знать все поклонники Болливуда 😝), вероятность выпадения орла и решки равна , то есть 0,5.
Пусть желаемый результат будет решкой. Следовательно, число желаемых исходов в этом случае равно 1. Возможны 2 исхода: орел и решка. Используя приведенную выше формулу
P(головы) = ½.
Вероятность выпадения решки можно рассчитать аналогичным образом.
Испытания Бернулли:
Испытания Бернулли — это эксперименты с ровно двумя исходами. Примеры:
- Подбрасывая честную монету, исход может быть орел/решка.
- Исход спортивной игры, победа или поражение.
- Результат теста: студенты сдают или не сдают экзамен.
Биномиальное распределение:
Биномиальное распределение используется для определения количества успехов в n испытаниях Бернулли. Пусть p - вероятность успеха, а q - вероятность неудачи испытания Бернулли. Пусть х - количество успешных испытаний. Тогда общее количество отказов будет n-x. Формула распределения вероятностей может быть представлена в виде:
P(X) = nCx * px * (q)n — x
Теперь мы знаем, что вероятность неудачи = 1 — вероятность успеха. Следовательно, мы также можем записать q как 1-p.
P(X) = nCx * px * (1 — p)n — x
Мы можем построить значения этого биномиального распределения как функцию массы вероятности.
Функция массы вероятности:
Википедия определяет функцию массы вероятности как функцию, которая дает вероятность того, что дискретная случайная величина точно равна некоторому значению. Дискретная случайная величина — это переменная, которая не может быть равна десятичному значению.
Функция массы вероятности подбрасывания правильной монеты 5 раз будет такой, как показано ниже:
Предположим, что для большого количества испытаний это число приближается к бесконечности, тогда функция массы вероятности превратится в непрерывную нормальную функцию (подробнее о нормальных функциях мы поговорим позже в статье), которая называется функцией распределения вероятностей, ниже приведен пример.
Непрерывная случайная величина:
Непрерывные случайные переменные — это переменные, которые могут принимать любое значение в заданном диапазоне. Например, количество воды в кувшине может иметь любое значение от 0 до вместимости кувшина, включая десятичные значения. Непрерывная случайная величина может быть представлена графически как функция распределения вероятностей, которую мы видели ранее.
Асимметрия распределений:
Данные могут распространяться различными способами. Мы можем проверить асимметрию распределения, используя гистограммы или кривые плотности, как мы сделали ниже. Вы всегда можете проверить асимметрию распределения, построив его график.
- Распределение с перекосом вправо:
Распределение, имеющее более длинный хвост к правой стороне графика, является распределением с перекосом вправо. Для распределения с асимметрией вправо Мода ‹ Медиана ‹ Среднее. Ниже показано, как выглядит кривая с наклоном вправо.
2. Левостороннее распределение:
Распределение, имеющее более длинный хвост к левой стороне графика, является распределением с асимметрией влево. Для распределения с асимметрией влево Режим › Медиана › Среднее. Ниже показано, как выглядит наклоненная влево кривая:
3. Нормальное распределение:
Распределение, которое имеет симметричную структуру, т. е. не имеет перекоса ни вправо, ни влево, является нормальным распределением. Она также известна как кривая колокола, поскольку имеет форму колокола. Для нормального распределения Мода = Медиана = Среднее. Ниже приведен график нормального распределения.
Некоторые важные моменты, которые следует помнить для нормального распределения:
- Он симметричен относительно среднего
- Эмпирическое правило нормального распределения состоит в том, что 68% значений находятся в пределах 1 стандартного отклонения от среднего, 95% значений находятся в пределах 2 стандартных отклонений от среднего. Мы рассматриваем оба направления вокруг среднего
- Когда мы заменяем частоту вероятностью, мы преобразуем нормальное распределение в стандартное нормальное распределение. Стандартное нормальное распределение имеет среднее значение = 0 и стандартное отклонение = 1, а площадь под кривой равна 1.
Центральная предельная теорема:
Учтите, что у нас есть большой набор данных. Теперь мы выберем несколько выборок из этого набора данных и построим средние значения выборки. Если количество выборок достигает бесконечности, распределение достигает нормального распределения. Согласно этой теореме, среднее значение любой выборки, взятой из совокупности, будет примерно равно среднему значению генеральной совокупности.
Z-оценка:
Z-оценка определяется как количество стандартных отклонений, наблюдаемое значение отклоняется от среднего значения.
Где
x: некоторое значение в нормальном распределении
μ: среднее значение нормального распределения
σ: стандартное отклонение нормального распределения
Распределение Z-показателя показано ниже:
Положительный показатель Z указывает на то, что наблюдаемое значение представляет собой Z стандартных отклонений справа от среднего. Отрицательная оценка Z указывает, что значение находится слева от среднего. Около 99% значений z находятся в диапазоне от -3 до 3, и все, что находится за пределами этого диапазона, можно считать весьма необычным. Z-показатели широко используются для проверки статистических гипотез.
Вывод :
Мы рассмотрели краткий обзор понятий, связанных с вероятностью. Надеюсь, вам всем понравилось. Вы также можете прочитать мою статью об описательной статистике здесь. Увидимся в следующий раз