→ НАИВНЫЙ БАЙЕВСКИЙ КАЛСИФИКАТОР, в основном это комбинация теоремы Байеса и наивного предположения о том, что два события будут независимыми, хотя это не так, но наивное предположение значительно упрощает математику.
Что такое теорема Байеса (условная вероятность)?→
→ Условная вероятность события A — это вероятность того, что событие произойдет, зная, что событие B уже произошло.
Теперь формула: -
P(A|B) = P(B|A) * P(A) / P(B)
где,
P(A|B): - Вероятность того, что A истинно, в то время как B уже истинно.
P(B|A): - Вероятность того, что B истинно, когда A уже истинно.
P(A): - Вероятность того, что A истинно.
P(B) :- Вероятность того, что это правда.
Сценарий использования:-
Давайте узнаем, какова вероятность того, что гости придут к нам домой, чтобы посетить день рождения во время дождя.
P(B) → Существует 15% вероятность того, что тогда к нам домой придут гости, чтобы посетить мероприятие.
P (A) → Предположим, что есть 10% гостей, и если дождь прекратится, гость вернется домой.
P(B|A) → Вероятность того, что милые, милые и добрые гости придут на мероприятие в 5% случаев, даже когда на улице идет дождь, такие гости очень редки.
P(A|B) → Теперь нам нужно найти вероятность того, что гости придут на мероприятие во время дождя.
P(A|B) = P(B|A) * P(A) / P(B)
Теперь мы помещаем наши данные в это,
0.05 * 0.10 / 0.15 = 0.333
Вероятность того, что гости не придут на мероприятие; 1- 0,333 = 0,667
Следовательно, вероятность того, что гости придут на мероприятие, составляет 33%, а вероятность того, что гости не придут на мероприятие, составляет 67%.
Теперь мы сосредоточимся на типах наивных байесовских классификаторов:-
- Распределение Бернулли:-
→ Случайный эксперимент, результаты которого бывают только двух типов, скажем, успех S и неудача F, является испытанием Бернулли. Вероятность успеха принимается равной p, а вероятность неудачи равна q = 1 − p. Случайный эксперимент, результаты которого бывают только двух типов, скажем, успех S и неудача F, называется испытанием Бернулли. Вероятность успеха принимается равной p, а вероятность неудачи равна q = 1 − p.
P(успех) = p
P(неудача) = q = 1-p
2. Полиномиальное распределение:-
→ Предположим, есть текстовый документ, и мы подсчитываем определенное слово, встречающееся снова и снова, тогда мы используем полиномиальное распределение.
→ Можно сказать, что мы используем многочлен для дискретного счета.
P(X1=x1,X2=x2,…………….Xk=xk) {где k = 1,2,3… как мы знаем
например: - В городе есть люди, группы крови которых следуют.
возьмем небольшой пример, например 6 индейцев:
1 : O, 2 : A, 2 : B, 1 : AB
p(x1=1, x2=2, x3 = 3, x4 =1)
so, 6! * (0.44 * 0.42 * 0.10* 0.04) / (1! * 2! * 2! * 1!)
может быть что-то около 0,133056, так что примерно 13%
3. Распределение Гаусса (нормальное распределение): -
- Не использовать в дискретном счете
- Используйте, если переменные имеют непрерывный характер
- например ; набор данных радужной оболочки
- ∞ < x < ∞
Здесь мы будем работать с титаническим набором данных и изучим классификатор Gaussian Naive Bayes;
Сначала мы импортируем библиотеки.
затем мы удалим ненужные столбцы и встроим основные столбцы во входную переменную и выживем, что является нашим целевым столбцом, поэтому мы поместим целевую переменную.
а затем мы либо заменим мужской или женский пол на 1 и 0, либо воспользуемся get_dummies, чтобы создать новые столбцы мужского и женского пола, после чего мы удалим столбец пола.
затем мы проверим нулевые значения, если они есть, то мы заполним их средним значением этого столбца.
затем проверьте значения с плавающей запятой, если они есть, затем преобразуйте их в тип int.
затем мы обучим нашу модель.
и проверим размер поезда и теста, а затем проанализируем их.
затем мы импортируем нашу модель GaussianNB()
после этого мы найдем показатель точности, а затем предскажем.
Вот исходный код моей ссылки на файл Google Colab :-
Ссылка :- https://colab.research.google.com/drive/1hcdUP8AXC_ts-Nxab0jWpMq0gMlrfegc?usp=sharing