Я работаю над проектом интеллектуального анализа данных, который пытается автоматически классифицировать текст в категорию t. это контролируемое обучение с несколькими классами, функция ввода включает заголовок и тело (оба являются текстовыми). Текущий показатель точности не очень хорош, не могли бы вы посоветовать какой-нибудь метод повышения точности?
вот что я уже пробовал.
- Предварительная обработка: термин (не могли бы вы предложить способ автоматического извлечения термина)
- Удаление стоп-слов (не могли бы вы предложить какой-нибудь набор стоп-слов для английского языка)
- Стемминг
- лемматизация
- N-грамм
- Выбор функции (коэффициент получения информации)
Алгоритмы: GBDT, LR, SVM и другие.