Почему наивны «наивные байесовские классификаторы»?

Классификация наших данных и прогнозирование результатов на основе наших исторических данных в настоящий момент являются огромными задачами. Для выполнения этих задач у нас есть надежное семейство алгоритмов контролируемого обучения, называемых наивными байесовскими классификаторами.

Наивные классификаторы Байеса полностью основаны на теореме Байеса, которая дает нам вероятность события при условии, что другое событие уже произошло. Это символически выражается как P (A | B), то есть вероятность события A произойдет при условии, что событие B уже произошло.

Причины использования теоремы Байеса:

  • Теорема Байеса дает полезную перспективу для понимания и оценки многих алгоритмов обучения.
  • Он вычисляет явные вероятности для гипотез и устойчив к шуму во входных данных.
  • В статистической классификации это сводит к минимуму вероятность ошибочной классификации.

Прежде чем применить эту теорему к данным, делаются следующие простые предположения:

  1. Все события (то есть функции) набора данных совершенно не зависят друг от друга.
  2. Каждое событие в равной степени способствует классификации результата.

Из-за таких строгих и простых предположений это семейство классификаторов называется Наивным.

Давайте рассмотрим классификатор, который предсказывает, является ли исследуемый фрукт A pple или нет с такими характеристиками, как Форма, Запах, Вкус, Цвет и т. Д. Наивный байесовский классификатор просто предполагает что эти функции не зависят друг от друга, и каждая функция одинаково важна для предсказания того, является ли этот фрукт яблоком или нет. Но в реальной жизни это не так! Если форма круглая, а цвет красный, вероятность того, что этот фрукт является яблоком, намного выше.

Так почему же этот наивный байесовский классификатор делает такие предположения, если они в целом неверны в реальных ситуациях?

Если бы эти предположения не были сделаны, нам пришлось бы рассчитать 2 (2n-1) параметра. Но из-за этого предположения безусловной независимости нам нужно рассчитывать только 2n параметров.

В результате этих предположений наивные байесовские классификаторы нечувствительны к нерелевантным характеристикам (предположение равных весов) и быстро обучаются & прогнозировать (предположение о независимости от событий).

Преимущества наивных классификаторов Байеса:

  1. Мало того, что обучение на прошлых данных происходит быстро, так и прогнозируется результат для новой точки данных.
  2. Требуется меньше ОЗУ, поскольку алгоритм не сохраняет в ОЗУ сразу весь набор данных.
  3. И он также может хорошо обрабатывать отсутствующие значения характеристик!

Недостатки наивных байесовских классификаторов:

  1. Если есть какие-либо существующие зависимости, этот классификатор не может изменять их каким-либо образом, кроме как устранять зависимости, просто игнорируя их.
  2. Если категория какой-либо категориальной переменной не видна в обучающих данных, алгоритм присвоит этой категории в тестовых данных нулевую вероятность. Это известно как нулевая частота и является одной из наиболее распространенных проблем, возникающих при использовании наивного байесовского классификатора.