Статьи по теме term-document-matrix

Вопросы по теме 'term-document-matrix'

Пакет tm: вывод findAssocs() в матрицу вместо списка в R

Рассмотрим следующий список: library(tm) data("crude") tdm <- TermDocumentMatrix(crude) a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1)) Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...

1090 просмотров

r matrix tm term-document-matrix

09.05.2024

Создание матрицы терминов-документов в Python из индекса ElasticSearch

Новичок в ElasticSearch здесь. У меня есть набор текстовых документов, которые я проиндексировал с помощью ElasticSearch через клиент Python ElasticSearch. Теперь я хочу провести машинное обучение с документами, используя Python и scikit-learn. Мне...

1679 просмотров

python machine-learning term-document-matrix

25.03.2022

Пошаговое создание dfm с помощью quanteda

Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...

7174 просмотров

r quanteda term-document-matrix text-analysis

23.11.2023

tm_map(gsub) не может заменить слова

# Loading required libraries # Set up logistics such as reading in data and setting up corpus ```{r} # Relative path points to the local folder folder.path="../data/InauguralSpeeches/" # get the list of file names speeches=list.files(path =...

3184 просмотров

r text-mining term-document-matrix

12.06.2023

Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM

Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа. Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...

1530 просмотров

r corpus word-frequency tm term-document-matrix

10.07.2022

Применение LSA к матрице документов терминов, когда количество документов очень мало

У меня есть термодокументная матрица (X) формы (6, 25931) . Первые 5 документов являются моими исходными документами, а последний документ - моим целевым документом. Столбец представляет собой количество различных слов в словаре. Я хочу получить...

67 просмотров

numpy nlp lsa svd term-document-matrix

06.04.2023

Вопросы по теме 'term-document-matrix'

Похожие вопросы