Кластер заданий Databricks по конвейеру, а не по активности записной книжки

Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS). Я подключил эти записные книжки к конвейеру DataFactory:

Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook

Затем я создал соединение с моими Databricks из DataFactory и добавил его в свои действия с записной книжкой. Я хотел бы запускать кластер Databricks всякий раз, когда запускается конвейер. В целом все это работает нормально. Но Databricks запускает кластер заданий для каждого действия с записной книжкой, которое занимает слишком много времени и кажется мне ненужным.

Можно ли запустить кластер в начале конвейера, а затем выключить его после завершения работы всех записных книжек? Или есть какие-то аргументы в пользу того, что для каждого вида деятельности хорошо иметь кластер заданий?

Stev 22.02.2019 источник

Ответы (2)

arrow_upward
2
arrow_downward

В настоящее время использование одного и того же кластера заданий для нескольких операций записной книжки невозможно.

Два альтернативных варианта:

Использовать интерактивный кластер
Используйте интерактивный кластер и (при разумных затратах) имейте веб-активность в начале, чтобы ЗАПУСТИТЬ кластер с помощью конечной точки REST Azure Databricks и другую веб-активность в конце после действий записной книжки на УДАЛИТЬ (ПРЕКРАТИТЬ) кластер через конечную точку REST

К сожалению, оба варианта используют интерактивные кластеры, что немного дороже по сравнению с кластерами заданий.

databash 22.02.2019

arrow_upward
0
arrow_downward

Также существует возможное обходное решение. Вы можете создать и активировать главную записную книжку Databricks с кластером заданий из ADF, и он будет вызывать ваши записные книжки с соответствующими параметрами один за другим с помощью команды dbutils.notebook.run ().

Таким образом, вы добьетесь экономии затрат на кластер заданий, и он также будет немедленно прекращен.

См. Раздел https://towardsdatascience.com/building-a-dynamic-data-pipeline-with-databricks-and-azure-data-factory-5460ce423df5 в этой статье - ›https://towardsdatascience.com/building-a-dynamic-data-pipeline-with-databricks-and-azure-data-factory-5460ce423df5

smeidak 11.10.2020

Кластер заданий Databricks по конвейеру, а не по активности записной книжки

Ответы (2)

Похожие вопросы