Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer

Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer.

  1. Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и подчеркиванием, например. август 2015 г., средний балл 3.9 и т. д.
  2. Обработка верхнего и нижнего регистра
  3. Удаление стоп-слов
  4. Удаление слов в зависимости от частоты документа - max_df и min_df
  5. Поиск биграмм
  6. Stemming — если он добавлен либо как часть пользовательского определения токенизации, либо с помощью анализатора, как указано в этом сообщении http://adding%20stemming%20Countvectorizer

person Vandhana    schedule 29.08.2018    source источник
comment
Хороший вопрос!!   -  person alvas    schedule 30.08.2018
comment
Это делается на последнем шаге после удаления стоп-слов и нахождения словарного запаса (биграмм). См. мой ответ здесь для работы   -  person Vivek Kumar    schedule 30.08.2018