Вероятность для науки о данных

Введение:

Вероятность — очень важное математическое понятие для науки о данных, используемое, среди прочего, для проверки гипотез, теоремы Байеса и интерпретации результатов машинного обучения. В этом блоге мы рассмотрим некоторые основные концепции вероятности. Давайте начнем.

Таблицы частот:

Это способ представить количество категорий в распределении. Рассмотрим распределение 5 цветных шаров: красный, красный, зеленый, синий, красный. Таблица частот для того же будет:

Гистограммы и гистограммы:

Гистограмма используется для описания распределения непрерывных переменных. Википедия описывает гистограмму как оценку распределения вероятностей непрерывной переменной. Далее в этой статье мы увидим, что такое непрерывные переменные и распределения вероятностей. Ниже приведен пример гистограммы, на которой мы строим частоту появления товаров в магазине.

Точно так же гистограммы можно использовать для построения категориальных переменных, ниже приведен пример гистограммы. Например, постройте график средней продолжительности поездки для каждого поставщика такси.

Вероятность:

Давайте сначала посмотрим на некоторые термины, связанные с вероятностью:

Эксперимент: это пробная версия с набором четко определенных выходных данных.

Результат: это возможный результат эксперимента.

События: набор результатов эксперимента.

Вероятность можно определить как вероятность того, что событие произойдет. Это значение вероятности находится между 0 и 1.

Сумма вероятностей всех возможных событий, происходящих в эксперименте, равна 1.

Формула вероятности:

Вероятность (событие) = количество желаемых результатов / общее количество результатов.

Пример: для эксперимента по подбрасыванию правильной монеты набор: {орел, решка} будет исходом. Будет 2 возможных события, одно выпадет орлом, второе выпадет решкой. Поскольку монета честная, в отличие от той, что используется в Sholay (о чем должны знать все поклонники Болливуда 😝), вероятность выпадения орла и решки равна , то есть 0,5.

Пусть желаемый результат будет решкой. Следовательно, число желаемых исходов в этом случае равно 1. Возможны 2 исхода: орел и решка. Используя приведенную выше формулу

P(головы) = ½.

Вероятность выпадения решки можно рассчитать аналогичным образом.

Испытания Бернулли:

Испытания Бернулли — это эксперименты с ровно двумя исходами. Примеры:

Подбрасывая честную монету, исход может быть орел/решка.
Исход спортивной игры, победа или поражение.
Результат теста: студенты сдают или не сдают экзамен.

Биномиальное распределение:

Биномиальное распределение используется для определения количества успехов в n испытаниях Бернулли. Пусть p - вероятность успеха, а q - вероятность неудачи испытания Бернулли. Пусть х - количество успешных испытаний. Тогда общее количество отказов будет n-x. Формула распределения вероятностей может быть представлена в виде:

P(X) = nCx * px * (q)n — x

Теперь мы знаем, что вероятность неудачи = 1 — вероятность успеха. Следовательно, мы также можем записать q как 1-p.

P(X) = nCx * px * (1 — p)n — x

Мы можем построить значения этого биномиального распределения как функцию массы вероятности.

Функция массы вероятности:

Википедия определяет функцию массы вероятности как функцию, которая дает вероятность того, что дискретная случайная величина точно равна некоторому значению. Дискретная случайная величина — это переменная, которая не может быть равна десятичному значению.

Функция массы вероятности подбрасывания правильной монеты 5 раз будет такой, как показано ниже:

Предположим, что для большого количества испытаний это число приближается к бесконечности, тогда функция массы вероятности превратится в непрерывную нормальную функцию (подробнее о нормальных функциях мы поговорим позже в статье), которая называется функцией распределения вероятностей, ниже приведен пример.

Непрерывная случайная величина:

Непрерывные случайные переменные — это переменные, которые могут принимать любое значение в заданном диапазоне. Например, количество воды в кувшине может иметь любое значение от 0 до вместимости кувшина, включая десятичные значения. Непрерывная случайная величина может быть представлена графически как функция распределения вероятностей, которую мы видели ранее.

Асимметрия распределений:

Данные могут распространяться различными способами. Мы можем проверить асимметрию распределения, используя гистограммы или кривые плотности, как мы сделали ниже. Вы всегда можете проверить асимметрию распределения, построив его график.

Распределение с перекосом вправо:

Распределение, имеющее более длинный хвост к правой стороне графика, является распределением с перекосом вправо. Для распределения с асимметрией вправо Мода ‹ Медиана ‹ Среднее. Ниже показано, как выглядит кривая с наклоном вправо.

2. Левостороннее распределение:

Распределение, имеющее более длинный хвост к левой стороне графика, является распределением с асимметрией влево. Для распределения с асимметрией влево Режим › Медиана › Среднее. Ниже показано, как выглядит наклоненная влево кривая:

3. Нормальное распределение:

Распределение, которое имеет симметричную структуру, т. е. не имеет перекоса ни вправо, ни влево, является нормальным распределением. Она также известна как кривая колокола, поскольку имеет форму колокола. Для нормального распределения Мода = Медиана = Среднее. Ниже приведен график нормального распределения.

Некоторые важные моменты, которые следует помнить для нормального распределения:

Он симметричен относительно среднего
Эмпирическое правило нормального распределения состоит в том, что 68% значений находятся в пределах 1 стандартного отклонения от среднего, 95% значений находятся в пределах 2 стандартных отклонений от среднего. Мы рассматриваем оба направления вокруг среднего
Когда мы заменяем частоту вероятностью, мы преобразуем нормальное распределение в стандартное нормальное распределение. Стандартное нормальное распределение имеет среднее значение = 0 и стандартное отклонение = 1, а площадь под кривой равна 1.

Центральная предельная теорема:

Учтите, что у нас есть большой набор данных. Теперь мы выберем несколько выборок из этого набора данных и построим средние значения выборки. Если количество выборок достигает бесконечности, распределение достигает нормального распределения. Согласно этой теореме, среднее значение любой выборки, взятой из совокупности, будет примерно равно среднему значению генеральной совокупности.

Z-оценка:

Z-оценка определяется как количество стандартных отклонений, наблюдаемое значение отклоняется от среднего значения.

Где

x: некоторое значение в нормальном распределении

μ: среднее значение нормального распределения

σ: стандартное отклонение нормального распределения

Распределение Z-показателя показано ниже:

Положительный показатель Z указывает на то, что наблюдаемое значение представляет собой Z стандартных отклонений справа от среднего. Отрицательная оценка Z указывает, что значение находится слева от среднего. Около 99% значений z находятся в диапазоне от -3 до 3, и все, что находится за пределами этого диапазона, можно считать весьма необычным. Z-показатели широко используются для проверки статистических гипотез.

Вывод :

Мы рассмотрели краткий обзор понятий, связанных с вероятностью. Надеюсь, вам всем понравилось. Вы также можете прочитать мою статью об описательной статистике здесь. Увидимся в следующий раз