Вопросы по теме 'tfidfvectorizer'

Добавление 2-мерного списка (плотный вывод результата tfidf) в строки кадра данных pandas, каждый индекс
У меня есть вывод ниже после векторизатора tfidf. Я хочу разобрать плотный вывод в столбец фрейма данных pandas, но я не мог напрямую применить функцию toarray или todense для разреженного вывода tfidf и передать его в столбец фрейма данных pandas....
692 просмотров

Переопределение токенизатора векторизатора scikitlearn с помощью spacy
Я хочу реализовать лемматизацию с пакетом Spacy . Вот мой код: regexp = re.compile( '(?u)\\b\\w\\w+\\b' ) en_nlp = spacy.load('en') old_tokenizer = en_nlp.tokenizer en_nlp.tokenizer = lambda string:...
1108 просмотров

Использовать sklearn TfidfVectorizer с уже токенизированными входами?
У меня есть список токенизированных предложений, и я хотел бы разместить его в векторизаторе tfidf. Я пробовал следующее: tokenized_list_of_sentences = [['this', 'is', 'one'], ['this', 'is', 'another']] def identity_tokenizer(text): return...
14767 просмотров
schedule 02.05.2023

Tfidfvectorizer от sklearn — как получить матрицу
Я хотел бы получить матрицу из объекта Tfidfvectorizer из sklearn. Вот мой код: from sklearn.feature_extraction.text import TfidfVectorizer text = ["The quick brown fox jumped over the lazy dog.", "The dog.", "The fox"]...
3308 просмотров

Передать атрибут объекта из предыдущего шага конвейера sklearn в качестве аргумента методу следующего шага
tl;dr : есть ли способ вызвать .get_feature_names() для подгонки и преобразованных данных из предыдущего шага конвейера для использования в качестве гиперпараметра на следующем этапе конвейера? ? У меня есть Pipeline , который включает...
219 просмотров

Почему TfidVectorizer.fit_transform() меняет количество выборок и меток для моих текстовых данных?
У меня есть набор данных, который содержит 3 столбца для 310 данных. Все столбцы текстовые. Один столбец — это текст, вводимый пользователем в форму запроса, а второй столбец — это метки (одна из шести меток), которые говорят, к какой категории...
282 просмотров
schedule 10.10.2023

Как получить среднее значение TF-IDF слова в корпусе?
Я пытаюсь получить среднее значение TF-IDF для слова во всем корпусе. Предположим, у нас есть слово «стек», которое встречается в нашем корпусе 4 раза (пара сотен документов). Он имеет эти значения 0.34, 0.45, 0.68, 0.78 в 4 найденных документах....
2600 просмотров

Какая математика стоит за TfidfVectorizer?
Я пытаюсь понять математику, стоящую за TfidfVectorizer . Я использовал это руководство, но мой код немного изменено: что также говорит в конце, что The values differ slightly because sklearn uses a smoothed version idf and various other...
567 просмотров

tf-idf для текстового кластерного анализа
Я хотел бы сгруппировать небольшие тексты, включенные в столбец df['Texts'] , из фрейма данных. Примеры предложений для анализа следующие: Texts 1 Donald Trump, Donald Trump news, Trump bleach, Trump injected bleach, bleach coronavirus....
43 просмотров