каков типичный способ улучшить точность модели/отзыв для классификации текста

Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми). Текущий показатель точности не очень хорош, не могли бы вы посоветовать какой-нибудь метод повышения точности?

вот что я уже пробовал.

  1. Предварительная обработка: термин (не могли бы вы предложить способ автоматического извлечения термина)
  2. Удаление стоп-слов (не могли бы вы предложить какой-нибудь набор стоп-слов для английского языка)
  3. Стемминг
  4. лемматизация
  5. N-грамм
  6. Выбор функции (коэффициент получения информации)

Алгоритмы: GBDT, LR, SVM и другие.


person Clover    schedule 17.04.2014    source источник
comment
Как вы представляете особенности? Являются ли особенности условиями? Сколько у вас примерно?   -  person amit    schedule 17.04.2014
comment
да, функции - это термины, я пробовал преобразовать слово в вектор со смешанной ngram, например, предложение abc будет генерировать вектор (a, b, c, ab, ac, bc, abc), а для веса я пробовал бит TF и «TFIDF,» дают лучший результат.   -  person Clover    schedule 18.04.2014


Ответы (1)


Существует множество инструментов, которые вы можете использовать для извлечения разумных лингвистически обоснованных типов объектов. Это зависит от вашего любимого языка/среды программирования и от того, хотите ли вы использовать набор машинного обучения, в котором есть некоторые компоненты интеллектуального анализа текста, или только компонент интеллектуального анализа текста.

Посмотри на:

О списках стоп-слов:

person user_1177868    schedule 09.07.2014