Вопросы по теме 'countvectorizer'
Извлечь счетчик текста из списка элементов
У меня есть список, содержащий текстовые элементы.
text = ['a for=apple','b for=ball', 'd for=dog', 'e for=elephant', 'a for=apple', 'd for=dog', '1.=one', '2.=two']
Мне нужно получить количество текста, который присутствует до "=". Я...
79 просмотров
schedule
04.03.2024
Векторизовать список списков с помощью countvectorizer() и tfidfvectorizer()
Итак, у меня есть следующий список списков, которые токенизированы:
tokenized_list = [['ALL', 'MY', 'CATS', 'IN', 'A', 'ROW'], ['WHEN', 'MY',
'CAT', 'SITS', 'DOWN', ',', 'SHE', 'LOOKS', 'LIKE', 'A',
'FURBY',...
1266 просмотров
schedule
14.11.2023
как сформировать словарь на основе tfidf sparklyr dataframe
Придется построить матрицу/фрейм данных Tf-idf с терминами/словами в качестве имен столбцов вместо индексов, используя sparklyr. Я выбрал ft_count_vectorizer из-за возможности хранения словарного запаса. Но я застрял после того, как нашел tf-idf, я...
361 просмотров
schedule
31.10.2023
Применяются ли ограничения max_df и min_df после или до удаления стоп-слов и поиска биграмм в CountVectorizer
Я новичок в нлтк. Я пытаюсь понять порядок выполнения различных параметров в CountVectorizer.
Токенизация — скажем, пользовательская токенизация с удалением слов меньше 3 символов. По умолчанию CountVextorizer разрешает слова с дефисом и...
81 просмотров
schedule
21.10.2022
Как игнорировать короткие документы с помощью Sklearn?
Я использую Sklearn CountVectorizer() для преобразования моего текстового документа в матрицу совпадения артиклей и слов. Это отлично сработало, однако я хочу, чтобы он исключал строки, соответствующие документам, содержащим менее k слов.
Я...
42 просмотров
schedule
31.05.2022
NLP: примените CountVectorizer к столбцу, содержащему список функций
Я хочу применить CountVectorizer к столбцу, содержащему список слов и фраз. Другими словами, корпус — это не строка, а список. Проблема в том, что CountVectorizer или любая другая родственная функция, с которой я столкнулся, ожидает строку в...
33 просмотров
schedule
26.05.2024
CountVectorizer терпит неудачу из-за плохих слов
Я использую pandas dataFrame и пытаюсь получить количество вхождений слов для определенного столбца со строками. Код работает хорошо, пока какая-то строка со следующей ошибкой...
61 просмотров
schedule
03.02.2024