Наивные байесовские классификаторы — это семейство алгоритмов, основанных на теореме Байеса. Это алгоритмы классификации, основной принцип которых заключается в том, что каждый классифицируемый признак не зависит от другого.
Пример:
У нас есть следующие документы, которые являются рецептами гамбургеров и бутербродов. Документ 1 и 2 — это рецепт приготовления гамбургеров, а документ 3 и 4 — рецепт приготовления сэндвича.
Мы должны классифицировать 5-й документ.
P(c|d) = вероятность того, что документ d относится к классу c.
P(c) = Prior, количество документов в классе c, деленное на общее количество документов.
P(w|c) = условная вероятность появления термина w в документе класса c.
ШАГ 1. Создайте словарь (уникальные слова)
|В| = { Булочка, Кетчуп, Курица, Сыр, Морковь, Хлеб }
|V| = 6
ШАГ 2. Подсчитайте учебные документы
N = 4
ШАГ 3. Рассчитайте априорную вероятность
Nc = количество документов в каждом классе
N = общее количество документов
P(b) = 2/4 = ½
P(s) = 2/4 = ½
ШАГ 4. Расчет условной вероятности
где:
w = извлеченные жетоны из документа 5 (Булочка, Сыр, Картофель)
P(w|c) = условная вероятность появления w в документе класса c.
count(w,c) = появление w в классе c
count(c) = общее количество слов в классе c
|В| = размер словарного запаса
1 = поправка Лапласа, помогает решить проблему нулевой вероятности.
ШАГ 5. Классифицируйте документ
Следовательно, документ 5 можно классифицировать как рецепт приготовления бургера.