Статьи по теме tfidfvectorizer

Вопросы по теме 'tfidfvectorizer'

Добавление 2-мерного списка (плотный вывод результата tfidf) в строки кадра данных pandas, каждый индекс

У меня есть вывод ниже после векторизатора tfidf. Я хочу разобрать плотный вывод в столбец фрейма данных pandas, но я не мог напрямую применить функцию toarray или todense для разреженного вывода tfidf и передать его в столбец фрейма данных pandas....

692 просмотров

12.10.2022

Переопределение токенизатора векторизатора scikitlearn с помощью spacy

Я хочу реализовать лемматизацию с пакетом Spacy . Вот мой код: regexp = re.compile( '(?u)\\b\\w\\w+\\b' ) en_nlp = spacy.load('en') old_tokenizer = en_nlp.tokenizer en_nlp.tokenizer = lambda string:...

1108 просмотров

python scikit-learn spacy tfidfvectorizer

06.09.2022

Использовать sklearn TfidfVectorizer с уже токенизированными входами?

У меня есть список токенизированных предложений, и я хотел бы разместить его в векторизаторе tfidf. Я пробовал следующее: tokenized_list_of_sentences = [['this', 'is', 'one'], ['this', 'is', 'another']] def identity_tokenizer(text): return...

14767 просмотров

scikit-learn tfidfvectorizer

02.05.2023

Tfidfvectorizer от sklearn — как получить матрицу

Я хотел бы получить матрицу из объекта Tfidfvectorizer из sklearn. Вот мой код: from sklearn.feature_extraction.text import TfidfVectorizer text = ["The quick brown fox jumped over the lazy dog.", "The dog.", "The fox"]...

3308 просмотров

python scikit-learn tf-idf tfidfvectorizer

28.10.2023

Передать атрибут объекта из предыдущего шага конвейера sklearn в качестве аргумента методу следующего шага

tl;dr : есть ли способ вызвать .get_feature_names() для подгонки и преобразованных данных из предыдущего шага конвейера для использования в качестве гиперпараметра на следующем этапе конвейера? ? У меня есть Pipeline , который включает...

219 просмотров

python pipeline random-forest gridsearchcv tfidfvectorizer

24.06.2022

Почему TfidVectorizer.fit_transform() меняет количество выборок и меток для моих текстовых данных?

У меня есть набор данных, который содержит 3 столбца для 310 данных. Все столбцы текстовые. Один столбец — это текст, вводимый пользователем в форму запроса, а второй столбец — это метки (одна из шести меток), которые говорят, к какой категории...

282 просмотров

python scikit-learn tfidfvectorizer

10.10.2023

Как получить среднее значение TF-IDF слова в корпусе?

Я пытаюсь получить среднее значение TF-IDF для слова во всем корпусе. Предположим, у нас есть слово «стек», которое встречается в нашем корпусе 4 раза (пара сотен документов). Он имеет эти значения 0.34, 0.45, 0.68, 0.78 в 4 найденных документах....

2600 просмотров

python scikit-learn tf-idf tfidfvectorizer

05.11.2023

Какая математика стоит за TfidfVectorizer?

Я пытаюсь понять математику, стоящую за TfidfVectorizer . Я использовал это руководство, но мой код немного изменено: что также говорит в конце, что The values differ slightly because sklearn uses a smoothed version idf and various other...

567 просмотров

python-3.x scikit-learn tfidfvectorizer

12.06.2022

tf-idf для текстового кластерного анализа

Я хотел бы сгруппировать небольшие тексты, включенные в столбец df['Texts'] , из фрейма данных. Примеры предложений для анализа следующие: Texts 1 Donald Trump, Donald Trump news, Trump bleach, Trump injected bleach, bleach coronavirus....

43 просмотров

python cluster-analysis tf-idf tfidfvectorizer

12.06.2022

Вопросы по теме 'tfidfvectorizer'

Похожие вопросы