Как запустить блокнот на dataproc с помощью композитора

У меня есть блокнот Jupyter на dataproc, который использует dataproc для обработки. Я также сохранил этот блокнот на gcs по адресу gc: / bucket / ....

Я хочу создать рабочий процесс Composer для запуска этой записной книжки в моем существующем кластере dataproc. Возможно ли это в GCP?


person HHH    schedule 22.09.2020    source источник


Ответы (1)


Записную книжку Jupyter нельзя запускать программно в Dataproc. Подход, который вы можете использовать, состоит в том, чтобы извлечь код из записной книжки, а затем отправить его как задание в вашем кластере из Composer, например, используя DataprocPySparkOperator.

person Tlaquetzal    schedule 23.09.2020
comment
что, если я использую Papermill? - person HHH; 23.09.2020
comment
Сам не пробовал, но да, должно работать. Вы можете установить jupyter и papermill в кластере dataproc, а затем использовать Composer для отправки задания Pig (команда bash может быть отправлена ​​как задание pig sh) в кластере для использования papermill. См .: stackoverflow.com/a/56034588/7517757 для справки о том, как отправить задание Pig. - person Tlaquetzal; 24.09.2020