PySpark - модель загрузки Word2Vec, нельзя использовать findSynonyms для получения слов

Я обучил модель Word2Vec с помощью PySpark и сохранил ее. При загрузке модели метод .findSynonyms не работает.

model = word2vec.fit(text)
model.save(sc, 'w2v_model')
new_model = Word2VecModel.load(sc, 'w2v_model')
new_model.findSynonyms('word', 4)

Получение следующей ошибки:

Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "/usr/lib/spark/python/pyspark/mllib/feature.py", line 487, in findSynonyms
words, similarity = self.call("findSynonyms", word, num)
ValueError: too many values to unpack

Я нашел следующее, но не уверен, как проблема была устранена: https://issues.apache.org/jira/browse/SPARK-12016

Пожалуйста, дайте мне знать, если есть обходные пути!

Большое спасибо.

apache-spark pyspark word2vec

verkter 06.03.2016 источник

comment

github.com/apache/spark/pull/10100/files Поскольку это слить можно только что построенную из нужной ветки. - zero323 06.03.2016

comment

Я запускаю это в версии AWS EMR. Можно ли построить это на ЭМИ? Спасибо! - verkter 06.03.2016

comment

Я так не думаю, но вы всегда можете создать класс-оболочку в одиночку и отправить его вместе со своей работой. Тогда боковой код Python не должен быть проблемой. - zero323 06.03.2016

PySpark - модель загрузки Word2Vec, нельзя использовать findSynonyms для получения слов

Похожие вопросы