Вопросы по теме 'term-document-matrix'

Пакет tm: вывод findAssocs() в матрицу вместо списка в R
Рассмотрим следующий список: library(tm) data("crude") tdm <- TermDocumentMatrix(crude) a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1)) Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...
1090 просмотров
schedule 09.05.2024

Создание матрицы терминов-документов в Python из индекса ElasticSearch
Новичок в ElasticSearch здесь. У меня есть набор текстовых документов, которые я проиндексировал с помощью ElasticSearch через клиент Python ElasticSearch. Теперь я хочу провести машинное обучение с документами, используя Python и scikit-learn. Мне...
1679 просмотров

Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров

tm_map(gsub) не может заменить слова
# Loading required libraries # Set up logistics such as reading in data and setting up corpus ```{r} # Relative path points to the local folder folder.path="../data/InauguralSpeeches/" # get the list of file names speeches=list.files(path =...
3184 просмотров
schedule 12.06.2023

Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM
Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа. Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...
1530 просмотров

Применение LSA к матрице документов терминов, когда количество документов очень мало
У меня есть термодокументная матрица (X) формы (6, 25931) . Первые 5 документов являются моими исходными документами, а последний документ - моим целевым документом. Столбец представляет собой количество различных слов в словаре. Я хочу получить...
67 просмотров
schedule 06.04.2023