Вопросы по теме 'tf-idf'

Как комбинировать TF-IDF с расстоянием редактирования или расстоянием Яро-Винклера
Я ищу способы повысить точность схемы взвешивания TF-IDF при сопоставлении строк (сходстве). Основная проблема заключается в том, что TF-IDF чувствителен к типографским ошибкам в сообщениях, а большинство больших наборов данных, как правило, содержат...
1215 просмотров
schedule 13.10.2023

Использование преобразования Sklearn TfidfVectorizer
Я пытаюсь получить вектор tf-idf для одного документа, используя объект TfidfVectorizer Sklearn. Я создаю словарь на основе некоторых учебных документов и использую fit_transform для обучения TfidfVectorizer. Затем я хочу найти векторы tf-idf для...
52591 просмотров
schedule 08.03.2024

Расчет TFIDF в Lucene при ограничении временного диапазона
У меня есть много документов в разное время. Теперь мне нужно рассчитать tfidf для документов за один период времени. Вот что я собираюсь сделать, например: У меня есть миллион текстовых документов на один год, я возьму документы за один месяц...
501 просмотров
schedule 17.04.2024

tf-idf и LDA в Google App Engine
У меня есть код Python, который использует библиотеки sklearn и gensim для tf-idf и LDA (скрытое распределение Дирихле). Теперь, когда я хочу перейти на механизм приложений Google, я не могу использовать ни одну из этих двух библиотек, потому что они...
483 просмотров

как построить обучающие векторы словесной n-граммы с помощью TF-IDF
Моя задача состоит в том, чтобы сделать классификацию текста с помощью svm, используя слово n-gram в качестве признаков. Перед использованием TF-IDF мой код: word_dic = ngram.wordNgrams(text, n) freq_term_vector = [word_dic[gram] if gram in...
520 просмотров
schedule 25.03.2024

рекурсивно определить сходство в lucene
У меня есть коллекция книг на разных языках. Мне нужно связать части каждой книги друг с другом на основе их сходства. Мне нужно связать книги с похожими книгами, главы с похожими главами и подглавы с похожими подглавами. Предпочтительно, чтобы...
226 просмотров

Векторизатор TFIDF выдает ошибку
Я пытаюсь выполнить классификацию текста для определенных файлов, используя TFIDF и SVM. Особенности должны быть выбраны по 3 слова за раз. Мои файлы данных уже в формате: ангельские глазки есть, каждый для себя. Нет стоп-слов, и ни один из них не...
21760 просмотров
schedule 25.06.2023

AttributeError: getfeature_names не найдены; используя scikit-learn
from sklearn.feature_extraction.text import CountVectorizer vectorizer = CountVectorizer() vectorizer = vectorizer.fit(word_data) freq_term_mat = vectorizer.transform(word_data) from sklearn.feature_extraction.text import TfidfTransformer tfidf =...
8434 просмотров
schedule 28.08.2022

Вычисление косинусного сходства путем преобразования текста в вектор с использованием tf-idf
Я новичок в Apache Spark, хочу найти похожий текст из кучи текста, пробовал себя следующим образом: У меня 2 РДД- 1-й СДР содержит неполный текст следующим образом: [0,541 Suite 204, Redwood City, CA 94063] [1,6649 N Blue Gum St, New...
2755 просмотров

Восстановление оригинального термина doc-id в sci-kit tfidf Vectorizer
Я использую tdidf vectorizer в sci-kit learn , чтобы вычислить значения td-idf для обзоров разных фильмов. Я успешно внедрил код, но теперь пытаюсь его усовершенствовать, чтобы оптимизировать вывод. При этом я хотел бы включить в свой вывод CSV...
459 просмотров
schedule 29.06.2023

Частота слов TfidfVectorizer от sklearn?
У меня есть вопрос о TfidfVectorizer sklearn, когда он определяет частоту слова в каждом документе. пример кода, который я видел: >>> from sklearn.feature_extraction.text import TfidfVectorizer >>> corpus = [ >>>...
8537 просмотров
schedule 10.08.2022

Вычислить частоту букв в строке и TF-IDF
У меня есть именованный вектор символов, называемый y , который выглядит примерно так: D1 D2 D3 D4 D5 "X D X " "G U V " "F Q " "A C U E" "H I T " Что я хотел бы сделать с этим вектором, так это создать как...
477 просмотров
schedule 12.12.2023

Категоризация текста Python с использованием TFIDF
У меня есть набор данных, как показано ниже **ID** **Text** **Category** 1 jake loves me more than john loves me Romance 2 july likes me more than robert loves me...
620 просмотров

Отключение частоты терминов для всех индексов и полей в elasticsearch
Я хочу исключить частоту терминов из эластичной оценки поиска при использовании tf-idf или BM25 — «техас, техас» должен давать тот же результат, что и «техас». Это можно сделать, используя сопоставление и установив «index_options»: «docs», как...
408 просмотров
schedule 18.03.2023

Скорость обучения TfIdf / вес документа
В настоящее время я использую sklearn для создания приложения, которое сравнивает данный документ с другими документами в поисках сходства. При использовании других методов, таких как LSA, я знаю, что могу настроить скорость обучения так, чтобы...
149 просмотров
schedule 10.05.2023

преобразование scipy.sparse.csr.csr_matrix в список списков
Я изучаю классификацию с несколькими метками и пытаюсь реализовать учебник tfidf из обучения scikit. Я имею дело с текстовым корпусом для расчета его оценки tf-idf. Для этой цели я использую модуль sklearn.feature_extraction.text. Используя...
11386 просмотров

Расшифровка трассировки с помощью машинного обучения
Я пытаюсь решить проблему, когда у меня есть файлы, которые содержат декодированные трассировки (трассировка вызовов стека) всякий раз, когда происходит сбой (в мире Linux), и у меня есть уникальный идентификатор для отслеживания сбоя, происходящего...
305 просмотров

Это правильный tfidf?
Я пытаюсь получить tfidf из документа. Но я не думаю, что это дает мне правильные значения, или я могу что-то делать неправильно. Пожалуйста, предложите. Код и вывод ниже: from sklearn.feature_extraction.text import TfidfVectorizer books =...
1121 просмотров
schedule 29.06.2023

Rapidminer-TF-IDF из набора данных csv
Мне нужно рассчитать tf-idf двух столбцов CSV-файла. Должен ли я преобразовывать строки в текстовые файлы? или есть ли способ рассчитать tf-idf из csv. как я могу рассчитать tfidf столбцов файла csv.
225 просмотров

Получите самые важные слова в корпусе, используя tf-idf (Gensim)
Я рассчитываю tf-idf следующим образом. texts=['human interface computer', 'survey user computer system response time', 'eps user interface system', 'system human system eps', 'user response time'] dictionary = corpora.Dictionary(texts)...
1859 просмотров
schedule 10.02.2024