Вопросы по теме 'term-document-matrix'
Пакет tm: вывод findAssocs() в матрицу вместо списка в R
Рассмотрим следующий список:
library(tm)
data("crude")
tdm <- TermDocumentMatrix(crude)
a <- findAssocs(tdm, c("oil", "opec", "xyz"), c(0.7, 0.75, 0.1))
Как мне удается иметь фрейм данных со всеми терминами, связанными с этими 3 словами...
1090 просмотров
schedule
09.05.2024
Создание матрицы терминов-документов в Python из индекса ElasticSearch
Новичок в ElasticSearch здесь. У меня есть набор текстовых документов, которые я проиндексировал с помощью ElasticSearch через клиент Python ElasticSearch. Теперь я хочу провести машинное обучение с документами, используя Python и scikit-learn. Мне...
1679 просмотров
schedule
25.03.2022
Пошаговое создание dfm с помощью quanteda
Я хочу проанализировать большой (n = 500 000) корпус документов. Я использую quanteda в ожидании, что будет быстрее , чем tm_map() из tm . Я хочу действовать поэтапно, вместо того, чтобы использовать автоматический способ с dfm() . У меня...
7174 просмотров
schedule
23.11.2023
tm_map(gsub) не может заменить слова
# Loading required libraries
# Set up logistics such as reading in data and setting up corpus
```{r}
# Relative path points to the local folder
folder.path="../data/InauguralSpeeches/"
# get the list of file names
speeches=list.files(path =...
3184 просмотров
schedule
12.06.2023
Найдите частоту пользовательского слова в R TermDocumentMatrix с помощью пакета TM
Я превратил около 50 000 строк данных varchar в корпус, а затем приступил к его очистке с помощью пакета TM, получая стоп-слова, знаки препинания и числа.
Затем я превратил его в TermDocumentMatrix и использовал функции findFreqTerms и...
1530 просмотров
schedule
10.07.2022
Применение LSA к матрице документов терминов, когда количество документов очень мало
У меня есть термодокументная матрица (X) формы (6, 25931) . Первые 5 документов являются моими исходными документами, а последний документ - моим целевым документом. Столбец представляет собой количество различных слов в словаре. Я хочу получить...
67 просмотров
schedule
06.04.2023