Можем ли мы использовать наивный байесовский метод для классификации числовых данных. У нас есть система, которая извлекает стили авторов, такие как длина предложения, длина слова, и использует их для прогнозирования авторства анонимных документов. Итак, можем ли мы использовать наивный байесовский подход для классификации авторов на основе этих числовых данных. В противном случае вы можете предложить лучшую альтернативу.
Используйте наивный байесовский подход для числовых атрибутов
Ответы (1)
Да, ты можешь. Фактически, каждый алгоритм обучения, о котором я знаю, работает с числовыми характеристиками: при работе с другими типами данных вы должны сначала предварительно обработать их до числовых данных.
Я бы посоветовал вам также изучить Машины опорных векторов, Интерактивные пассивно-агрессивные классификаторы и взвешивание TF-IDF для этой задачи.
person
IVlad
schedule
11.02.2015
Можете ли вы предложить некоторые пакеты Python, в которых я могу работать с числовыми атрибутами с помощью наивного байеса?
- person Nithin.P; 11.02.2015
@ Nithin.P - Мне больше всего нравится scikit-learn. В нем есть все, что я упомянул, а также Наивный Байес. Взгляните также на его SGDClassifier. И это руководство по работе с текстовыми данными: scikit-learn.org/stable/tutorial /text_analytics/
- person IVlad; 11.02.2015
Благодарю вас! SK-Learn идеально подходит для меня.
- person Nithin.P; 16.02.2015
@ Nithin.P - если вы нашли мой ответ полезным, примите его, нажав на галочку рядом с ним.
- person IVlad; 16.02.2015