Любой, кто занимается аналитикой, машинным обучением, статистикой, искусственным интеллектом или наукой о данных, учится или работает, будет иметь более чем базовое представление о теореме Байеса. Некоторые люди, достаточно долго работающие в этой области, утверждают, что это святой Грааль, поэтому поймите, что сила этой теоремы действительно важна.

Я сам неплохо разбирался в этом со школьных времен, решая задачи условной вероятности, но тогда и даже до двух лет назад я действительно не мог понять, из-за чего вся эта суета и почему многие люди считают, что это уравнение не имеет себе равных в этой домен. Если выразить это в математической форме, то это довольно просто:

P(A|B) = (P(B|A) * P(A)) / P(B)

• P(A|B) — вероятность гипотезы A при данных B. Это называется апостериорной вероятностью.

• P(B|A) — вероятность данных B при условии, что гипотеза A верна.

• P(A) — вероятность того, что гипотеза A верна (независимо от данных). Это называется априорной вероятностью А.

  • P(B) — вероятность данных (независимо от гипотезы).

Следовательно, если информация о вероятностях P(B|A), P(A) и P(B) известна, мы можем найти значение P(A|B).

Фактическая сила правила Байеса заключается не только в том, что предлагает это относительно простое уравнение, а в том, что чем больше мы собираем данных, тем больше доверия к гипотезе мы можем придать. На первый взгляд это звучит просто и очевидно, и мы могли бы использовать его ежедневно, даже не задумываясь. Например, мы просыпаемся в яркий и солнечный день и думаем, что вероятность осадков в этот день очень мала (так называемая предыдущая), но по мере приближения дня и сбора облаков мы корректируем нашу первоначальную оценку и обновляем эту начальную априорную вероятность большим числом. и по мере того, как мы наблюдаем больше («собираем больше данных»), мы приближаемся к тому, какова фактическая вероятность того, что в этот день пойдет дождь. Этот тип вывода называется байесовским выводом, и мы используем его так много раз, даже не осознавая этого.

Ниже приведен более конкретный пример: медицинские тесты на серьезные заболевания вряд ли когда-либо будут полностью надежными, и они, как правило, немного далеки от абсолютной точности. Предположим, что диагностический тест на респираторное заболевание составляет 95%, что означает, что 95% здоровых людей будут иметь отрицательный результат. для этого теста, и аналогичным образом 95% инфицированных людей дадут положительный результат, что, на первый взгляд, дает довольно точный результат. В этом сценарии мы можем использовать правило Байеса в наших интересах при решении таких вопросов, как какова вероятность того, что у человека есть данное заболевание, у него положительный результат теста, а также около 10% населения имеют это заболевание.

Здесь P(B) равно 0,1, вероятность того, что человек болен. P(B|A) равно 0,95, что, по сути, является вероятностью того, что тест окажется правильным. Чтобы получить P(B), нам нужно сложить значения вероятностей, при которых люди получают положительный результат независимо от того, есть у них заболевание или нет, что является суммой следующих двух величин:

(0.1*0.95) + (0.9*0.5)

Первые — это те, у кого положительный результат теста и есть заболевание, а вторые — те, кто здоров, но все еще имеет положительный результат теста на заболевание. Помещение этих значений в выражение дает нам значение 0,174, которое является нашим требуемым ответом.

P(A|B) = (0.95 * 0.1) / (0.1*0.95 + 0.9*0.5)

P(A|B) =0.174

Теперь, если бы мы снова провели тест, мы могли бы получить лучшие результаты, поскольку наша предыдущая вероятность, которая изначально была 0,1, теперь равна 0,174. По сути, это суть правила Байеса, приближающегося к истине с помощью большего количества данных и наблюдений. Ниже приведены последующие расчеты:

P(A|B) = (0.95 * 0.174) / (0.174*0.95 + 0.826*0.5)

P(A|B) =0.285

Повторение процесса в третий раз, чтобы имитировать уверенность в результате третьего теста:

P(A|B) = (0.95 * 0.285) / (0.285*0.95 + 0.715*0.5)

P(A|B) =0.43

По сути, мы значительно увеличили вашу уверенность в результате теста с третьей попытки, и, поскольку мы продолжаем увеличивать количество наблюдений, мы будем продолжать получать более высокие значения и, следовательно, более высокую уверенность в наших результатах. Теперь перейдем к применению этого уравнения.

Приложения:

Одним из наиболее широко используемых приложений правила Байеса является апостериорный максимум, также известный как MAP. В машинном обучении и, в более общем плане, в области ИИ он используется для расчета вероятности гипотезы с учетом некоторых данных. Возвращаясь к предыдущему исходному выражению:

P(H|D) = (P(D|H) * P(H)) / P(D)

Здесь «H» — это гипотеза, которую в сценарии задачи классификации можно рассматривать как значение целевой переменной наблюдения, а «D» — это наши точки данных для данного наблюдения. «H» также можно рассматривать как параметры, которые при использовании с алгоритмом ML будут предсказывать целевой класс. Предположим, у нас есть 3 целевых класса, а именно T1, T2, T3. Наша карта наблюдения будет включать в себя вычисление 3 апостериорных вероятностей, а затем выбор максимальной из них, отсюда и название Максимум апостериорной.

•P(T1|D) = P(D|T1) * P(T1)

•P(T2|D) = P(D|T2) * P(T2)

•P(T3|D) = P(D|T3) * P(T3)

Здесь я удалил знаменатель для трех случаев, так как он является общим для всех трех и не повлияет на наш процесс выбора максимального значения. Итак, после соответствующих расчетов мы выберем класс (гипотезу), который дает нам максимальную апостериорную вероятность. В общих случаях выражение MAP дается следующим образом [1], где θ представляет собой гипотезу, а D представляет собой точки данных.

Помимо вышеизложенного, где теорема Байеса используется для прогнозирования точности медицинских тестов и использования MAP для оценки параметров алгоритмов машинного обучения, существует гораздо больше случаев использования этого правила в реальной жизни. Поистине замечательные преимущества этой модели можно увидеть, когда байесовская модель использовалась для обнаружения пропавшего рейса Air France [2], который исчез над Атлантическим океаном в 2009 году. были переданы предварительные данные в виде истории плана полета, погодных условий, океанских течений и других внешних факторов, чтобы получить вероятность для каждой зоны в радиусе 50 миль. Поисковый комитет после выбора зоны с максимальной апостериорной вероятностью в конце концов обнаружил там обломки самолета. Это правило даже пользовалось значительным успехом в предсказании победителя президентских выборов в США в прошлом. существует множество других вариантов использования этого обманчиво простого и мощного уравнения.

Хотя я пишу эти блоги о вещах, которые я нахожу интересными в мире ML, и чтобы отдать должное сообществу, которое дало мне так много, когда я начал свое путешествие здесь, я буду рад любым предложениям / отзывам, которые у вас могут быть.

Ссылки:

[1] Хории, Шота. Нежное введение в оценку максимального правдоподобия и максимальную апостериорную оценку. Середина. На пути к науке о данных, 3 октября 2019 г. https://towardsdatascience.com/a-gentle-introduction-to-maximum-likelihood-estimation-and-maximum-a-posteriori-estimation-d7c318f9d22d.

[2] Сети. Теорема Байеса: приложение в реальном мире: блог курса по сетям для INFO 2040/CS 2850/Econ 2040/SOC 2090. По состоянию на 7 апреля 2020 г. https://blogs.cornell.edu/info2040/2015/11/20/bayes -теорема-применение-в-реальном мире/.