Вопросы по теме 'tf-idf'
Как комбинировать TF-IDF с расстоянием редактирования или расстоянием Яро-Винклера
Я ищу способы повысить точность схемы взвешивания TF-IDF при сопоставлении строк (сходстве). Основная проблема заключается в том, что TF-IDF чувствителен к типографским ошибкам в сообщениях, а большинство больших наборов данных, как правило, содержат...
1215 просмотров
schedule
13.10.2023
Использование преобразования Sklearn TfidfVectorizer
Я пытаюсь получить вектор tf-idf для одного документа, используя объект TfidfVectorizer Sklearn. Я создаю словарь на основе некоторых учебных документов и использую fit_transform для обучения TfidfVectorizer. Затем я хочу найти векторы tf-idf для...
52591 просмотров
schedule
08.03.2024
Расчет TFIDF в Lucene при ограничении временного диапазона
У меня есть много документов в разное время. Теперь мне нужно рассчитать tfidf для документов за один период времени. Вот что я собираюсь сделать, например:
У меня есть миллион текстовых документов на один год, я возьму документы за один месяц...
501 просмотров
schedule
17.04.2024
tf-idf и LDA в Google App Engine
У меня есть код Python, который использует библиотеки sklearn и gensim для tf-idf и LDA (скрытое распределение Дирихле). Теперь, когда я хочу перейти на механизм приложений Google, я не могу использовать ни одну из этих двух библиотек, потому что они...
483 просмотров
schedule
09.11.2022
как построить обучающие векторы словесной n-граммы с помощью TF-IDF
Моя задача состоит в том, чтобы сделать классификацию текста с помощью svm, используя слово n-gram в качестве признаков. Перед использованием TF-IDF мой код:
word_dic = ngram.wordNgrams(text, n)
freq_term_vector = [word_dic[gram] if gram in...
520 просмотров
schedule
25.03.2024
рекурсивно определить сходство в lucene
У меня есть коллекция книг на разных языках. Мне нужно связать части каждой книги друг с другом на основе их сходства. Мне нужно связать книги с похожими книгами, главы с похожими главами и подглавы с похожими подглавами.
Предпочтительно, чтобы...
226 просмотров
schedule
17.02.2023
Векторизатор TFIDF выдает ошибку
Я пытаюсь выполнить классификацию текста для определенных файлов, используя TFIDF и SVM. Особенности должны быть выбраны по 3 слова за раз. Мои файлы данных уже в формате: ангельские глазки есть, каждый для себя. Нет стоп-слов, и ни один из них не...
21760 просмотров
schedule
25.06.2023
AttributeError: getfeature_names не найдены; используя scikit-learn
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer()
vectorizer = vectorizer.fit(word_data)
freq_term_mat = vectorizer.transform(word_data)
from sklearn.feature_extraction.text import TfidfTransformer
tfidf =...
8434 просмотров
schedule
28.08.2022
Вычисление косинусного сходства путем преобразования текста в вектор с использованием tf-idf
Я новичок в Apache Spark, хочу найти похожий текст из кучи текста, пробовал себя следующим образом:
У меня 2 РДД-
1-й СДР содержит неполный текст следующим образом:
[0,541 Suite 204, Redwood City, CA 94063]
[1,6649 N Blue Gum St, New...
2755 просмотров
schedule
14.01.2023
Восстановление оригинального термина doc-id в sci-kit tfidf Vectorizer
Я использую tdidf vectorizer в sci-kit learn , чтобы вычислить значения td-idf для обзоров разных фильмов. Я успешно внедрил код, но теперь пытаюсь его усовершенствовать, чтобы оптимизировать вывод. При этом я хотел бы включить в свой вывод CSV...
459 просмотров
schedule
29.06.2023
Частота слов TfidfVectorizer от sklearn?
У меня есть вопрос о TfidfVectorizer sklearn, когда он определяет частоту слова в каждом документе.
пример кода, который я видел:
>>> from sklearn.feature_extraction.text import TfidfVectorizer
>>> corpus = [
>>>...
8537 просмотров
schedule
10.08.2022
Вычислить частоту букв в строке и TF-IDF
У меня есть именованный вектор символов, называемый y , который выглядит примерно так:
D1 D2 D3 D4 D5
"X D X " "G U V " "F Q " "A C U E" "H I T "
Что я хотел бы сделать с этим вектором, так это создать как...
477 просмотров
schedule
12.12.2023
Категоризация текста Python с использованием TFIDF
У меня есть набор данных, как показано ниже
**ID** **Text** **Category**
1 jake loves me more than john loves me Romance
2 july likes me more than robert loves me...
620 просмотров
schedule
20.01.2024
Отключение частоты терминов для всех индексов и полей в elasticsearch
Я хочу исключить частоту терминов из эластичной оценки поиска при использовании tf-idf или BM25 — «техас, техас» должен давать тот же результат, что и «техас». Это можно сделать, используя сопоставление и установив «index_options»: «docs», как...
408 просмотров
schedule
18.03.2023
Скорость обучения TfIdf / вес документа
В настоящее время я использую sklearn для создания приложения, которое сравнивает данный документ с другими документами в поисках сходства.
При использовании других методов, таких как LSA, я знаю, что могу настроить скорость обучения так, чтобы...
149 просмотров
schedule
10.05.2023
преобразование scipy.sparse.csr.csr_matrix в список списков
Я изучаю классификацию с несколькими метками и пытаюсь реализовать учебник tfidf из обучения scikit. Я имею дело с текстовым корпусом для расчета его оценки tf-idf. Для этой цели я использую модуль sklearn.feature_extraction.text. Используя...
11386 просмотров
schedule
11.07.2022
Расшифровка трассировки с помощью машинного обучения
Я пытаюсь решить проблему, когда у меня есть файлы, которые содержат декодированные трассировки (трассировка вызовов стека) всякий раз, когда происходит сбой (в мире Linux), и у меня есть уникальный идентификатор для отслеживания сбоя, происходящего...
305 просмотров
schedule
09.10.2023
Это правильный tfidf?
Я пытаюсь получить tfidf из документа. Но я не думаю, что это дает мне правильные значения, или я могу что-то делать неправильно. Пожалуйста, предложите. Код и вывод ниже:
from sklearn.feature_extraction.text import TfidfVectorizer
books =...
1121 просмотров
schedule
29.06.2023
Rapidminer-TF-IDF из набора данных csv
Мне нужно рассчитать tf-idf двух столбцов CSV-файла. Должен ли я преобразовывать строки в текстовые файлы? или есть ли способ рассчитать tf-idf из csv.
как я могу рассчитать tfidf столбцов файла csv.
225 просмотров
schedule
23.03.2023
Получите самые важные слова в корпусе, используя tf-idf (Gensim)
Я рассчитываю tf-idf следующим образом.
texts=['human interface computer',
'survey user computer system response time',
'eps user interface system',
'system human system eps',
'user response time']
dictionary = corpora.Dictionary(texts)...
1859 просмотров
schedule
10.02.2024