Вопросы по теме 'tfidfvectorizer'
Добавление 2-мерного списка (плотный вывод результата tfidf) в строки кадра данных pandas, каждый индекс
У меня есть вывод ниже после векторизатора tfidf. Я хочу разобрать плотный вывод в столбец фрейма данных pandas, но я не мог напрямую применить функцию toarray или todense для разреженного вывода tfidf и передать его в столбец фрейма данных pandas....
692 просмотров
schedule
12.10.2022
Переопределение токенизатора векторизатора scikitlearn с помощью spacy
Я хочу реализовать лемматизацию с пакетом Spacy . Вот мой код:
regexp = re.compile( '(?u)\\b\\w\\w+\\b' )
en_nlp = spacy.load('en')
old_tokenizer = en_nlp.tokenizer
en_nlp.tokenizer = lambda string:...
1108 просмотров
schedule
06.09.2022
Использовать sklearn TfidfVectorizer с уже токенизированными входами?
У меня есть список токенизированных предложений, и я хотел бы разместить его в векторизаторе tfidf. Я пробовал следующее:
tokenized_list_of_sentences = [['this', 'is', 'one'], ['this', 'is', 'another']]
def identity_tokenizer(text):
return...
14767 просмотров
schedule
02.05.2023
Tfidfvectorizer от sklearn — как получить матрицу
Я хотел бы получить матрицу из объекта Tfidfvectorizer из sklearn. Вот мой код:
from sklearn.feature_extraction.text import TfidfVectorizer
text = ["The quick brown fox jumped over the lazy dog.",
"The dog.",
"The fox"]...
3308 просмотров
schedule
28.10.2023
Передать атрибут объекта из предыдущего шага конвейера sklearn в качестве аргумента методу следующего шага
tl;dr : есть ли способ вызвать .get_feature_names() для подгонки и преобразованных данных из предыдущего шага конвейера для использования в качестве гиперпараметра на следующем этапе конвейера? ?
У меня есть Pipeline , который включает...
219 просмотров
schedule
24.06.2022
Почему TfidVectorizer.fit_transform() меняет количество выборок и меток для моих текстовых данных?
У меня есть набор данных, который содержит 3 столбца для 310 данных. Все столбцы текстовые. Один столбец — это текст, вводимый пользователем в форму запроса, а второй столбец — это метки (одна из шести меток), которые говорят, к какой категории...
282 просмотров
schedule
10.10.2023
Как получить среднее значение TF-IDF слова в корпусе?
Я пытаюсь получить среднее значение TF-IDF для слова во всем корпусе. Предположим, у нас есть слово «стек», которое встречается в нашем корпусе 4 раза (пара сотен документов). Он имеет эти значения 0.34, 0.45, 0.68, 0.78 в 4 найденных документах....
2600 просмотров
schedule
05.11.2023
Какая математика стоит за TfidfVectorizer?
Я пытаюсь понять математику, стоящую за TfidfVectorizer . Я использовал это руководство, но мой код немного изменено:
что также говорит в конце, что The values differ slightly because sklearn uses a smoothed version idf and various other...
567 просмотров
schedule
12.06.2022
tf-idf для текстового кластерного анализа
Я хотел бы сгруппировать небольшие тексты, включенные в столбец df['Texts'] , из фрейма данных. Примеры предложений для анализа следующие:
Texts
1 Donald Trump, Donald Trump news, Trump bleach, Trump injected bleach, bleach coronavirus....
43 просмотров
schedule
12.06.2022