Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer.
- Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и подчеркиванием, например. август 2015 г., средний балл 3.9 и т. д.
- Обработка верхнего и нижнего регистра
- Удаление стоп-слов
- Удаление слов в зависимости от частоты документа - max_df и min_df
- Поиск биграмм
- Stemming — если он добавлен либо как часть пользовательского определения токенизации, либо с помощью анализатора, как указано в этом сообщении http://adding%20stemming%20Countvectorizer