Статьи по теме countvectorizer

Вопросы по теме 'countvectorizer'

Извлечь счетчик текста из списка элементов

У меня есть список, содержащий текстовые элементы. text = ['a for=apple','b for=ball', 'd for=dog', 'e for=elephant', 'a for=apple', 'd for=dog', '1.=one', '2.=two'] Мне нужно получить количество текста, который присутствует до "=". Я...

79 просмотров

python list countvectorizer

04.03.2024

Векторизовать список списков с помощью countvectorizer() и tfidfvectorizer()

Итак, у меня есть следующий список списков, которые токенизированы: tokenized_list = [['ALL', 'MY', 'CATS', 'IN', 'A', 'ROW'], ['WHEN', 'MY', 'CAT', 'SITS', 'DOWN', ',', 'SHE', 'LOOKS', 'LIKE', 'A', 'FURBY',...

1266 просмотров

python pandas nlp scikit-learn countvectorizer

14.11.2023

как сформировать словарь на основе tfidf sparklyr dataframe

Придется построить матрицу/фрейм данных Tf-idf с терминами/словами в качестве имен столбцов вместо индексов, используя sparklyr. Я выбрал ft_count_vectorizer из-за возможности хранения словарного запаса. Но я застрял после того, как нашел tf-idf, я...

361 просмотров

r apache-spark sparklyr apache-spark-ml countvectorizer

31.10.2023

Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer

Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer. Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...

81 просмотров

scikit-learn nltk countvectorizer n-gram stop-words

21.10.2022

Как игнорировать короткие документы с помощью Sklearn?

Я использую Sklearn CountVectorizer() для преобразования моего текстового документа в матрицу совпадения артиклей и слов. Это отлично сработало, однако я хочу, чтобы он исключал строки, соответствующие документам, содержащим менее k слов. Я...

42 просмотров

scikit-learn countvectorizer

31.05.2022

NLP: примените CountVectorizer к столбцу, содержащему список функций

Я хочу применить CountVectorizer к столбцу, содержащему список слов и фраз. Другими словами, корпус — это не строка, а список. Проблема в том, что CountVectorizer или любая другая родственная функция, с которой я столкнулся, ожидает строку в...

33 просмотров

python nlp scikit-learn countvectorizer

26.05.2024

CountVectorizer терпит неудачу из-за плохих слов

Я использую pandas dataFrame и пытаюсь получить количество вхождений слов для определенного столбца со строками. Код работает хорошо, пока какая-то строка со следующей ошибкой...

61 просмотров

python pandas scikit-learn countvectorizer

03.02.2024

Вопросы по теме 'countvectorizer'

Похожие вопросы