PySpark - модель загрузки Word2Vec, нельзя использовать findSynonyms для получения слов

Я обучил модель Word2Vec с помощью PySpark и сохранил ее. При загрузке модели метод .findSynonyms не работает.

model = word2vec.fit(text)
model.save(sc, 'w2v_model')
new_model = Word2VecModel.load(sc, 'w2v_model')
new_model.findSynonyms('word', 4)

Получение следующей ошибки:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/mllib/feature.py", line 487, in findSynonyms
words, similarity = self.call("findSynonyms", word, num)
ValueError: too many values to unpack

Я нашел следующее, но не уверен, как проблема была устранена: https://issues.apache.org/jira/browse/SPARK-12016

Пожалуйста, дайте мне знать, если есть обходные пути!

Большое спасибо.


person verkter    schedule 06.03.2016    source источник
comment
github.com/apache/spark/pull/10100/files Поскольку это слить можно только что построенную из нужной ветки.   -  person zero323    schedule 06.03.2016
comment
Я запускаю это в версии AWS EMR. Можно ли построить это на ЭМИ? Спасибо!   -  person verkter    schedule 06.03.2016
comment
Я так не думаю, но вы всегда можете создать класс-оболочку в одиночку и отправить его вместе со своей работой. Тогда боковой код Python не должен быть проблемой.   -  person zero323    schedule 06.03.2016