Я создал модель, используя газированную воду H2O. И теперь я хотел бы применить его к огромному Spark DF (населенному разреженными векторами). Я использую python и pyspark, pysparkling. В основном мне нужно выполнить задание карты с функцией model.predict() внутри. Но копирование данных в контекст H2O — это огромные накладные расходы, а не вариант. Я думаю, что собираюсь сделать это, извлечь модель POJO (класс Java) из модели h2o и использовать ее для создания карты в кадре данных. Мои вопросы:
- Есть ли способ лучше?
- Как написать оболочку pyspark для класса java, из которого я намерен использовать только один метод .score (двойные [] данные, двойной [] результат)
- Как максимально повторно использовать обертки из библиотеки Spark ML?
Благодарю вас!