Вопросы по теме 'countvectorizer'

Извлечь счетчик текста из списка элементов
У меня есть список, содержащий текстовые элементы. text = ['a for=apple','b for=ball', 'd for=dog', 'e for=elephant', 'a for=apple', 'd for=dog', '1.=one', '2.=two'] Мне нужно получить количество текста, который присутствует до "=". Я...
79 просмотров
schedule 04.03.2024

Векторизовать список списков с помощью countvectorizer() и tfidfvectorizer()
Итак, у меня есть следующий список списков, которые токенизированы: tokenized_list = [['ALL', 'MY', 'CATS', 'IN', 'A', 'ROW'], ['WHEN', 'MY', 'CAT', 'SITS', 'DOWN', ',', 'SHE', 'LOOKS', 'LIKE', 'A', 'FURBY',...
1266 просмотров

как сформировать словарь на основе tfidf sparklyr dataframe
Придется построить матрицу/фрейм данных Tf-idf с терминами/словами в качестве имен столбцов вместо индексов, используя sparklyr. Я выбрал ft_count_vectorizer из-за возможности хранения словарного запаса. Но я застрял после того, как нашел tf-idf, я...
361 просмотров

Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer
Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer. Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...
81 просмотров

Как игнорировать короткие документы с помощью Sklearn?
Я использую Sklearn CountVectorizer() для преобразования моего текстового документа в матрицу совпадения артиклей и слов. Это отлично сработало, однако я хочу, чтобы он исключал строки, соответствующие документам, содержащим менее k слов. Я...
42 просмотров
schedule 31.05.2022

NLP: примените CountVectorizer к столбцу, содержащему список функций
Я хочу применить CountVectorizer к столбцу, содержащему список слов и фраз. Другими словами, корпус — это не строка, а список. Проблема в том, что CountVectorizer или любая другая родственная функция, с которой я столкнулся, ожидает строку в...
33 просмотров
schedule 26.05.2024

CountVectorizer терпит неудачу из-за плохих слов
Я использую pandas dataFrame и пытаюсь получить количество вхождений слов для определенного столбца со строками. Код работает хорошо, пока какая-то строка со следующей ошибкой...
61 просмотров