У меня есть большой tdm, для которого мне нужно косинусное сходство для каждого термина с любым другим термином. Стандартные процедуры не помогают, так как я получаю следующую ошибку.
Error: cannot allocate vector of size 1162.4 Gb
Поскольку я новичок в параллельной обработке в R, я не могу использовать его для выполнения работы. Ниже приведен небольшой набор данных. Любая помощь будет здорово.
library(tm)
data("crude")
tdm <- TermDocumentMatrix(crude)
Идеальный выход должен быть следующим.
Word Related_Word cosine_distance
oil opec 0.5
oil spill 0.3
.....................................................
.....................................................