Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer

Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer.

Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и подчеркиванием, например. август 2015 г., средний балл 3.9 и т. д.
Обработка верхнего и нижнего регистра
Удаление стоп-слов
Удаление слов в зависимости от частоты документа - max_df и min_df
Поиск биграмм
Stemming — если он добавлен либо как часть пользовательского определения токенизации, либо с помощью анализатора, как указано в этом сообщении http://adding%20stemming%20Countvectorizer

Vandhana 29.08.2018 источник

comment

Хороший вопрос!! - alvas 30.08.2018

comment

Это делается на последнем шаге после удаления стоп-слов и нахождения словарного запаса (биграмм). См. мой ответ здесь для работы - Vivek Kumar 30.08.2018

Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer

Похожие вопросы