как вычислить косинусное сходство между словами для большого DocumentTermMatrix

У меня есть большой tdm, для которого мне нужно косинусное сходство для каждого термина с любым другим термином. Стандартные процедуры не помогают, так как я получаю следующую ошибку.

 Error: cannot allocate vector of size 1162.4 Gb

Поскольку я новичок в параллельной обработке в R, я не могу использовать его для выполнения работы. Ниже приведен небольшой набор данных. Любая помощь будет здорово.

 library(tm)
 data("crude")
 tdm <- TermDocumentMatrix(crude)

Идеальный выход должен быть следующим.

  Word   Related_Word  cosine_distance
  oil        opec                   0.5
  oil        spill                  0.3
   .....................................................
   .....................................................

NinjaR 13.03.2017 источник

comment

Попробуйте пакет Quanteda, он использует разреженную матрицу. - José 13.03.2017

comment

@ Хосе - я попробовал следующий код, и он выдал мне ошибку, как показано ниже. Ошибка в asMethod(object): ошибка Cholmod «слишком большая проблема» в файле ../Core/cholmod_dense.c, строка 105 - NinjaR 13.03.2017

comment

Эти посты должны привести вас туда, куда вам нужно. stackoverflow.com /questions/41721431/, stackoverflow.com/questions/41721431/, stackoverflow.com/questions/29750519/ - emilliman5 13.03.2017

comment

Возможный дубликат R: вычислить косинусное расстояние от матрицы термин-документ с tm и прокси - emilliman5 13.03.2017

как вычислить косинусное сходство между словами для большого DocumentTermMatrix

Похожие вопросы