каков типичный способ улучшить точность модели/отзыв для классификации текста

Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми). Текущий показатель точности не очень хорош, не могли бы вы посоветовать какой-нибудь метод повышения точности?

вот что я уже пробовал.

Предварительная обработка: термин (не могли бы вы предложить способ автоматического извлечения термина)
Удаление стоп-слов (не могли бы вы предложить какой-нибудь набор стоп-слов для английского языка)
Стемминг
лемматизация
N-грамм
Выбор функции (коэффициент получения информации)

Алгоритмы: GBDT, LR, SVM и другие.

algorithm text-mining data-mining

Clover 17.04.2014 источник

comment

Как вы представляете особенности? Являются ли особенности условиями? Сколько у вас примерно? - amit 17.04.2014

comment

да, функции - это термины, я пробовал преобразовать слово в вектор со смешанной ngram, например, предложение abc будет генерировать вектор (a, b, c, ab, ac, bc, abc), а для веса я пробовал бит TF и «TFIDF，» дают лучший результат. - Clover 18.04.2014

Ответы (1)

arrow_upward
0
arrow_downward

Существует множество инструментов, которые вы можете использовать для извлечения разумных лингвистически обоснованных типов объектов. Это зависит от вашего любимого языка/среды программирования и от того, хотите ли вы использовать набор машинного обучения, в котором есть некоторые компоненты интеллектуального анализа текста, или только компонент интеллектуального анализа текста.

Посмотри на:

Java: Weka (видео о классификации текста), OpenNLP

Python: Scikit-learn и NLTK.

О списках стоп-слов:

user_1177868 09.07.2014

каков типичный способ улучшить точность модели/отзыв для классификации текста

Ответы (1)

Похожие вопросы