Вероятно, одним из самых популярных и простых методов оценки параметров является оценка машинного обучения, и теорема Байеса, будучи самостоятельным гением, имеет множество приложений. Но можно ли рассматривать машинное обучение (не машинное обучение) как приложение теоремы Байеса? Давайте посмотрим.

Давайте резюмируем теорему Байеса, используя очень простую и простую задачу выбора урны и шара, проблемы, которые встречаются как самая первая проблема применения теоремы Байеса. Постановка задачи следующая:

Предположим, у вас есть 3 одинаковые урны с одинаковыми шарами. Первая урна содержит 3 черных шара и 3 красных шара, вторая урна содержит 4 черных шара и 2 красных шара, а третья урна содержит 1 черный шар и 5 красных шаров. С завязанными глазами вы выбираете одну урну случайным образом из трех урн и случайным образом вытягиваете один шар. Пусть выпавший шар будет красным. Тогда какую урну вы выбрали сначала?

Типичная проблема теоремы Байеса. Не правда ли? Тогда давайте решим это.

Пусть A1, A2, A3 - события выбора первой, второй и третьей урны соответственно. Пусть B будет событием выбора красного шара. Поскольку урны идентичны и одна из них выбирается случайным образом, следовательно

P[A1]=P[A2]=P[A3] ….(1)

и поскольку есть только эти 3 урны, поэтому выбор любой из них является гарантированным событием, мы имеем P [A1] + P [A2] + P [A3] = 1…. (2)

Из (1) и (2) ясно, что P [A1] = P [A2] = P [A3] = 1/3

теперь P [B | A1] = P [выбор красного шара из 3 красных шаров и 3 черных шаров] = 3 / (3 + 3) = 3/6

P [B | A2] = P [выбор красного шара из 2 красных и 4 черных шаров] = 2 / (2 + 4) = 2/6

P [B | A3] = P [выбор красного шара из 5 красных шаров и 1 черного шара] = 5 / (5 + 1) = 5/6

Но вы вытащили мяч с завязанными глазами, поэтому вы не знаете, какое из событий B | A1, B | A2 и B | A3 произошло. Или, чтобы конкретизировать, какой из A1, A2 и A3 действительно произошел. Теперь, учитывая дополнительную информацию о том, что выбранный шар красный, давайте вычислим P [A1 | B], P [A2 | B] и P [A3 | B], используя теорему Байеса.

So, P[A1|B]=(P[B|A1]*P[A1])/(P[B|A1]*P[A1]+P[B|A2]*P[A2]+P[B|A3]*P[A3])

or, P[A1|B]=(3/6)*(1/3)/[(3/6)*(1/3)+(2/6)*(1/3)+(5/6)*(1/3)]=3/10

аналогично P [A2 | B] = (P [B | A2] * P [A2]) / (P [B | A1] * P [A1] + P [B | A2] * P [A2] + P [ B | A3] * P [A3])

or, P[A2|B]=(2/6)*(1/3)/[(3/6)*(1/3)+(2/6)*(1/3)+(5/6)*(1/3)]=2/10

и наконец,

P[A3|B]=(P[B|A3]*P[A3])/(P[B|A1]*P[A1]+P[B|A2]*P[A2]+P[B|A3]*P[A3])

or, P[A3|B]=(5/6)*(1/3)/[(3/6)*(1/3)+(2/6)*(1/3)+(5/6)*(1/3)]=5/10

Мы обнаружили, что событие A3 | B имеет самую высокую вероятность среди трех событий.

Отсюда можно сделать вывод, что, скорее всего, была выбрана третья урна. И это тоже вполне очевидно, поскольку в третьей урне максимальное количество красных шаров.

Пока все хорошо, ничего особенного, ничего интересного.

Тогда давайте сосредоточимся.

Почему бы нам не упорядочить различные действия, связанные с проблемой, по времени? Давайте сделаем это.

Основная привлекательность этой простой проблемы заключается в том, что, находясь в состоянии C, вы должны угадать, что произошло в состоянии A. Действия, которые произошли с завязанными глазами, и, следовательно, на самом деле неизвестны вам. Так что в основном это процесс определения неизвестной выбранной урны с учетом имеющихся данных (цвета шара).

Давайте остановимся на проблеме Байеса и перейдем к статистическому выводу. Что такое статистический вывод? Это процесс познания неизвестного. Например: оценка некоторых параметров популяции. Что же тогда является параметром? Интересующая величина, которая описывает популяцию и неизвестна нам. Как же тогда оценить этот параметр? Для этого существует несколько методов (один из таких методов - оценка максимального правдоподобия или MLE), но для каждого такого метода вам понадобится как минимум одна выборка. Выборка - это не что иное, как известная вам часть населения.

Теперь давайте сосредоточимся на MLE. Что такое подчеркнутая теория MLE? Учитывая имеющуюся выборку, какова оценка подчеркнутого параметра, при которой наиболее вероятно получение наблюдаемой выборки, т. е. вероятность получения данной выборки максимальна.

Разве оценка ML тоже не возвращается во времени? Потому что популяция определяется некоторыми параметрами. И когда выборка отбирается из этой генеральной совокупности, это связано с параметром или параметрами, которые генерируются выборкой, но, к сожалению, вы об этом не знаете, и, следовательно, вам необходимо получить знания о ней на основе созданной выборки.

Обнаружили какое-то сходство с проблемой Байеса? Я надеюсь, что это так. Давайте займемся простой задачей оценки машинного обучения.

Допустим, у вас есть выборка из X1, X2, X3, X4 и X5 из 5 наблюдений iid (нарисованный шар) из распределения N (t, 1) (некоторая урна). с t unknown (но какая урна, вы не знаете). На основе заданных значений выборки (цвет выбранного шара) предоставьте оценку ML t (какая урна имеет максимальные шансы вместить выбранный шар).

Настоящая проблема оценки ML приведена выше. Но давайте снова решим проблему урны и шара с той лишь разницей, что теперь урн бесконечно много, потому что t может принимать любое значение от -infinity до + infinity.

Пусть B будет событием, когда была сгенерирована данная выборка из 5 наблюдений.

Так как t может принимать бесконечно много значений, и они неисчислимы бесконечны, мы не можем определять такие события, как A1, когда N (t1,1) выбирается заранее, A2 - это событие, когда N (t2,1) выбирается заранее, и поэтому на. Вместо этого давайте определим непрерывное распределение t, и, поскольку все нормальные распределения предполагаются равновероятными заранее, утверждение вероятности будет

f (t) = c для всех допустимых значений t.

И T будет событием, когда выбрано N (t, 1).

Теперь, аналогично задаче с мячом и урной, нам нужно найти

P [T | B] для различных значений t, а затем вывести то конкретное t, для которого P [T | B] является максимальным.

По теореме Байеса

P[T|B]=P[B|T]*P[T]/P[B]…..(*)

У нас есть,

поскольку t здесь не является ни конечным, ни бесчисленным бесконечным, в выражении P [B] через теорему о полной вероятности вместо суммирования используется интегрирование.

so,

Следовательно, из (*),

Ясно, что знаменатель является постоянным, поскольку он не содержит t, а имеющийся образец фиксирован.

Итак, чтобы найти t, которое максимизирует P [T | B], математическая формулировка:

Но что это на самом деле? Разве это не формулировка оценки машинного обучения? Да, действительно, это так (я знаю, что мы обычно максимизируем логарифмическую вероятность, но это исключительно из-за вычислительной цели).

Бинго !!!

Вначале в реальной задаче об урне и мяче предполагалось, что каждая урна будет выбрана с одинаковой вероятностью, поэтому ответом будет та урна, в которой больше всего красных шаров? То же предположение справедливо и здесь, в MLE. Но что, если урны имеют разную вероятность быть выбранными? Тогда, просто взглянув на цвет мяча, вы не сможете дать никакого решения.

Точно так же при оценке параметров также, если вы предполагаете некоторое предварительное распределение для параметра, которое не является постоянным для всех допустимых значений параметра, то также, просто глядя на имеющийся образец, вы не можете сделать вывод о предполагаемом значении параметра.

В области статистики или машинного обучения байесовский подход играет очень важную роль, и строительным блоком всех таких подходов является теорема Байеса. Теорема очень проста и легка. Тогда что же в этом особенного? Я имею в виду использование правила условной вероятности, P [A | B] = P [A и B] / P [B]

аналогично, P [B | A] = P [A и B] / P [A], следовательно, P [A и B] = P [B | A] * P [A]

заменив в приведенном выше уравнении P [A | B] = P [B | A] * P [A] / P [B]. Вот и все. Это просто математическая формулировка условной вероятности.

Но прелесть теоремы в том, что вы фактически изменяете вероятность верного события. Что такое верное событие? Вызывается событие A - это гарантированное событие, если P [A] = 1. Любое событие, которое уже произошло, - это верное событие. Какова вероятность того, что Германия выиграет ЧМ ФИФА в 2014 году? Это 1. Какова вероятность того, что, когда вы дважды бросите шестигранный несмещенный кубик, первый выход будет 5, а второй выход - 1? ответ: (1/6) * (1/6) = 1/36. Но какова вероятность того, что, когда вы дважды бросите шестигранный несмещенный кубик, на втором выходе будет 1 при том, что на первом выходе будет 5? Ответ - 1/6, потому что P [первый вывод 5] = 1, так как это уже произошло.

Теперь представьте, что в задаче с урной вы уже выбрали урну, так что это верное событие. Любое из P [B | A1] = 1, P [B | A2] = 1 или P [B | A3] = 1 должно быть истинным. Но поскольку вы не знаете, что это такое, эта теорема фактически позволяет вам вернуться в прошлое и выяснить это.

Таким образом, эта теорема является гением статистики, потому что новаторская идея, которую она предлагает, не имеет себе равных.

Спасибо за чтение, любая критика или отзывы всегда приветствуются в разделе комментариев, или вы можете связаться со мной через мой профиль в LinkedIn.