Используйте наивный байесовский подход для числовых атрибутов

Можем ли мы использовать наивный байесовский метод для классификации числовых данных. У нас есть система, которая извлекает стили авторов, такие как длина предложения, длина слова, и использует их для прогнозирования авторства анонимных документов. Итак, можем ли мы использовать наивный байесовский подход для классификации авторов на основе этих числовых данных. В противном случае вы можете предложить лучшую альтернативу.


person Nithin.P    schedule 11.02.2015    source источник


Ответы (1)


Да, ты можешь. Фактически, каждый алгоритм обучения, о котором я знаю, работает с числовыми характеристиками: при работе с другими типами данных вы должны сначала предварительно обработать их до числовых данных.

Я бы посоветовал вам также изучить Машины опорных векторов, Интерактивные пассивно-агрессивные классификаторы и взвешивание TF-IDF для этой задачи.

person IVlad    schedule 11.02.2015
comment
Можете ли вы предложить некоторые пакеты Python, в которых я могу работать с числовыми атрибутами с помощью наивного байеса? - person Nithin.P; 11.02.2015
comment
@ Nithin.P - Мне больше всего нравится scikit-learn. В нем есть все, что я упомянул, а также Наивный Байес. Взгляните также на его SGDClassifier. И это руководство по работе с текстовыми данными: scikit-learn.org/stable/tutorial /text_analytics/ - person IVlad; 11.02.2015
comment
Благодарю вас! SK-Learn идеально подходит для меня. - person Nithin.P; 16.02.2015
comment
@ Nithin.P - если вы нашли мой ответ полезным, примите его, нажав на галочку рядом с ним. - person IVlad; 16.02.2015