В Части 1 мы представили основы математики, необходимые для начала карьеры в науке о данных, но, честно говоря, мы все изучали и работали с этими понятиями в 9-м или 10-м классе. Сегодня позвольте мне представить очень интересные и важные концепции статистики, которые будут использоваться на протяжении всего исследования в области машинного обучения и глубокого обучения.

Вероятность
Рассмотрим следующий пример: вы ждете поезд на станции, вы устали и не можете стоять в поезде. Итак, вы решили подбросить монетку и проверить (если выпадет орел, то в поезде есть места или нет), заняты ли места в поезде. Ты подбросил монетку, что ты здесь делаешь? Проверка того, насколько вероятно, что места в поезде заняты, и насколько вы уверены, будет решена подбрасыванием монеты. Это вероятность, оценивающая вероятность того, что событие произойдет.

Функция распределения вероятностей

Позвольте мне продолжить приведенный выше пример, если я спрошу вас, какова вероятность того, что в поезде будет ровно одно свободное место,
P(Места = 1)
Можете ли вы оценить вероятность, очевидно, что нет! Потому что одно место, которое не занято, может быть из-за того, что оно повреждено, или кто-то пролил на него немного воды, или по любой другой причине, о которой вы точно не можете сказать. Даже со 100-процентной точностью трудно что-либо оценить, пока это уже не произошло. Позвольте спросить вас, какова вероятность того, что в поезде будет 1, 2 или более 2 свободных мест? Я думаю, это было бы намного легче оценить, потому что у вас есть несколько вариантов: если не 2 места, то хотя бы одно.
P(Места ›=1)

На приведенном выше изображении показана функция распределения вероятностей. Мы видим, что заштрихованная область — это наша вероятность того, что в поезде будет более одного незанятого места. Если мы возьмем интеграл этой заштрихованной площади, то мы сможем найти площадь, которая дает нам вероятность занять место.

Примечание. Если вы считаете, что вероятность того, что в поезде будет ровно одно свободное место, то она равна нулю, а вся площадь под кривой должна быть равна единице (что верно, мы вычисляем вероятность наличия более одно свободное место в поезде из всех доступных мест. Итак, если есть 10 мест, вы находите вероятность более одного, что составляет 1›10‹ 3 ==› вероятность того, что От 1/10 (одно место из всех 10 мест) до 3/10 (три места из всех 10 мест), если все места свободны, то 10/10 = 1).

Биномиальное распределение

Я предполагаю, что пример поезда дал интуитивное представление о том, что такое PDF (функция распределения вероятностей), поэтому, чтобы быть синхронизированным, позвольте мне продолжить рассмотрение того же примера для биномиального распределения.
Вы ждете поезда и оцениваете вероятность получить более одного места при подбрасывании монеты, теперь давайте рассмотрим эту монету. Если вы подбросите монету 3 раза и проверите вероятность того, что в поезде окажется свободное место,
Случай 1: одна голова
подбросьте монету и посмотрите, выпадет ли хотя бы один орел, тогда у вас будет занятое место, так какова вероятность этого,
P(H = 1) = 1/2 (для орла) * 1/2 (Для решки) * 1/2 (для решки) == › 1/6.
Таким образом, у вас есть вероятность 1/6 получить одну решку, если вы подбросите монету три раза, и у вас есть 1 /6 вероятность наличия незанятого места. (Примечание: вероятность наличия одного свободного места снова будет зависеть от количества свободных мест в поезде, поэтому для простоты я не учитываю этот фактор.)
Случай 2: наличие 2 мест. решка
Вы подбросили монетку и видите, что если выпадет хотя бы две решки, то у вас будет занятое место, так какова вероятность этого,
P(H = 2) = 1/2 (на одну решку) * 1/2 (на решку) * 1/2 (на решку) == › 1/6 и,
==› 1/2 (на решку ) * 1/2 (на второй хвост) * 1/2 (на голову) == › 1/6.
Если вы заметили, что у нас есть проблема, мы рассматриваем возможность иметь 2 головы, но опускаем положение головы, а это означает, что если вы получаете голову в первом подбрасывании, то следующая голова может быть во втором подбрасывании или третий вы не знаете, что. Таким образом, вероятность будет равна
==> 3 (для первой решки) * 2 (для второй решки) / 2 (потому что вы хотите две решки)
==> 6/2 == › 3, теперь у нас есть 3 комбинации выпадения головы в 3 флипах (HTT, THT, TTH)

==› 3*1/6 ==› 3 комбинации, умноженные на вероятность одной решки, потому что каждая решка имеет вероятность 1/6.
==› 1/2, шансы выпадения 2 решек при подбрасывании монета трижды.
Итак, если у вас есть некоторое представление о перестановках и комбинациях, мы можем переформулировать приведенный выше расчет следующим образом:
==> 3! /1!*2!, Позвольте мне расшифровать это,
3! За то, что во время первого броска (HTT) была одна голова.
2! За то, чтобы иметь вторую голову там, где у нас есть наша первая голова, так что есть только еще 2 места (THT, TTH).
1! 6 можно записать как 3! == 3 * 2 * 1, поэтому нам не нужен один, поэтому делим на 1! (Ниже у меня есть еще один пример, который дает вам больше интуиции).
2! Выпало 2 орла, вы хотели 2 орла.
Из приведенного выше расчета давайте посмотрим, если бы вы решили подбросить монету 5 раз,
это было бы 5!/3! (Вот что делает 1! Выше мы можем записать 20 как 5!/3!)
==> 5*4*3*2*1/3*2*1 ==> 5*4 = =›20 / 2 (2 соответствует двум орлам) ==> 10,
таким образом, у вас будет 10 возможностей получить 2 орла, когда вы подбрасываете монету 5 раз, я думаю, это дает вам лучшее понимание того, что мы сделали выше.

Итак, если сложить все вместе, для 2 решек за 3 броска ==> 3!/1!*2!

На приведенном выше графике показано биномиальное распределение, мы оцениваем вероятность выпадения орла при подбрасывании монеты, поэтому каждый результат подбрасывания может быть нанесен на график, и в итоге мы получим вышеуказанное (это зависит от результатов) . Если мы попытаемся преобразовать приведенный выше расчет в формулу, мы получим это,

Где это используется в науке о данных, ну, все, что мы узнаем, не будет иметь очень простого применения, некоторые будут действовать как катализатор, а некоторые помогут в качестве промежуточных этапов. Итак, BD (биномиальное распределение) используется, когда мы имеем 2 взаимоисключающих исхода (Взаимоисключающие означает, что вы не можете выполнять два события одновременно, например, вы не можете одновременно играть в боулинг и биту во время игры в крикет).

Нормальное распределение (нормальное распределение также называется распределением Гаусса)

У нас есть четкое представление о среднем, выборочном среднем, среднем по совокупности, дисперсии, стандартном отклонении и различных типах случайных величин (часть-1), теперь позвольте мне представить самое популярное и самое важное понятие в области Статистика нормального распределения.

Вы уже видели колоколообразную кривую, нормальное распределение часто представляется этой кривой. Эта кривая объясняет, как распределяются наши данные. В Части 1 мы обсуждали, что такое данные выборки и генеральной совокупности, поэтому, когда мы представляем эти данные, они распределяются таким образом. Где средняя точка представляет собой среднее значение данных, и если мы идем вправо, то мы добавляем одно стандартное отклонение к среднему, аналогично, когда мы идем влево от среднего, мы вычитаем одно стандартное отклонение из среднего . Но почему?

Среднее значение и стандартное отклонение

Среднее значение даст нам знать, каково среднее количество вещества, которое у нас есть (здесь вещество может быть любым, возраст, рост или даже пол и т. д.), а стандартное отклонение позволит нам узнать, насколько далеки данные или вещество. распределяется от среднего. (Среднее стандартное значение означает среднее значение + стандартное значение).
Это то, что представляет собой нормальное распределение, теперь у вас могут возникнуть сомнения, какова вероятность того, что наши данные нормально распределены, на самом деле в 70% случаев данные будут нормально распределены, вероятность того, что наши данные будут искажены влево или вправо, составляет 30% (мы поговорим об этих терминах в следующих разделах).

Если вспомнить пример, который мы использовали в Часть-1, мы считали средний рост учеников в классе, если мы вернемся к этому примеру, если у нас есть 100 учеников и мы вычислим среднее значение,
Среднее значение рост студента = 5'4+5'3+5'8+5'9+6'0+……………..+5’4+5’9/100 ==› 5’7.
S0, 5'7 будет средним ростом учащихся в целом. Таким образом, на кривой выше среднего будет 5 футов 7 дюймов, что находится в более высокой области. Если мы пойдем вправо, мы добавим одно стандартное отклонение, что означает, что мы отклоняемся от среднего значения, поэтому мы можем видеть, что область сужается, что означает, что у нас есть более высокие люди справа от среднего, и аналогично, слева , мы вычитаем стандартное отклонение из среднего значения, и кривая снова сужается. Что указывало на то, что у нас очень меньше людей меньшего роста.

Это данные, которые мы выводим из кривой нормального распределения, и часто это первый и основной шаг, который обычно делают аналитики данных или ученые, чтобы понять распределение данных. Из них у нас есть еще несколько понятий,

  1. Перекос вправо ND
  2. Левый перекос ND
  3. Эмпирическое правило

Нет правого перекоса

На изображении видно, что хвост направлен к положительной стороне линии, которая представляет собой правую асимметрию положительно асимметричных данных, рассмотрим пример, который вы, возможно, слышали много раз, значения дохода. Когда мы отображаем данные о доходах людей в определенном штате или стране, у нас большая часть доходов находится в диапазоне от 20 000 до 50 000 долларов США, и очень мало доходов (например, у миллиардеров) справа (> 50 000 долларов США), поэтому в этих случаях мы получаем наклоненную вправо кривую колокола.

Перекос влево

Из приведенного выше рисунка мы можем видеть, что означает распределение с асимметрией влево, если хвост кривой нормального распределения направлен к левой стороне линии, мы называем это распределением с асимметрией влево или с отрицательной асимметрией. Рассмотрим этот пример: если людей попросить пройти 100 метров за 10 минут, большинство из них пройдут это за 10 минут или раньше, только нескольким людям (может быть, старым или с ограниченными физическими возможностями) потребуется еще некоторое время после 10 минут. минут, чтобы завершить прогулку. В этом случае большинство людей будут на правой стороне, на положительной стороне, и лишь немногие будут на отрицательной стороне.

Эмпирическое правило

Это стандартное правило, которое определяется после выполнения большого количества экспериментов с распределенными данными. Правило гласит:
Если данные распределены нормально (иногда это называется стандартным нормально распределенным), то 68% данных распределены. распределяется между одним стандартным отклонением слева и справа от среднего (μ — стандартное отклонение от μ до μ + стандартное отклонение). 95 % данных распределены между двумя стандартными отклонениями влево и вправо от среднего (от — 2std до μ до μ + 2std), а 99,5 % или 99,7 % данных распределены между тремя стандартными отклонениями влево и вправо. среднего (μ — 3std до μ до μ + 3std).

Эмпирическое правило поможет удалить выбросы из данных (мы поговорим о выбросах в части 3 статьи о математике для статистики).

Продолжение…

Заключение

Наука о данных — обширная область, самый простой способ изучить эти концепции — разделить их на микропредметы. Эта статья даст вам представление о распределении данных, используемых в статистике. Ни один человек не может быть экспертом в какой-либо области, но мы можем стать лучше, практикуя и решая различные проблемы, многие люди понимают концепции, но игнорируют практику, наука о данных когда-то была областью, где нам нужно работать над множеством различных вариантов использования. .