Наивные байесовские классификаторы — это семейство алгоритмов, основанных на теореме Байеса. Это алгоритмы классификации, основной принцип которых заключается в том, что каждый классифицируемый признак не зависит от другого.

Пример:

У нас есть следующие документы, которые являются рецептами гамбургеров и бутербродов. Документ 1 и 2 — это рецепт приготовления гамбургеров, а документ 3 и 4 — рецепт приготовления сэндвича.

Мы должны классифицировать 5-й документ.

P(c|d) = вероятность того, что документ d относится к классу c.

P(c) = Prior, количество документов в классе c, деленное на общее количество документов.

P(w|c) = условная вероятность появления термина w в документе класса c.

ШАГ 1. Создайте словарь (уникальные слова)

|В| = { Булочка, Кетчуп, Курица, Сыр, Морковь, Хлеб }

|V| = 6

ШАГ 2. Подсчитайте учебные документы

N = 4

ШАГ 3. Рассчитайте априорную вероятность

Nc = количество документов в каждом классе

N = общее количество документов

P(b) = 2/4 = ½

P(s) = 2/4 = ½

ШАГ 4. Расчет условной вероятности

где:

w = извлеченные жетоны из документа 5 (Булочка, Сыр, Картофель)

P(w|c) = условная вероятность появления w в документе класса c.

count(w,c) = появление w в классе c

count(c) = общее количество слов в классе c

|В| = размер словарного запаса

1 = поправка Лапласа, помогает решить проблему нулевой вероятности.

ШАГ 5. Классифицируйте документ

Следовательно, документ 5 можно классифицировать как рецепт приготовления бургера.