Кластер заданий Databricks по конвейеру, а не по активности записной книжки

Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS). Я подключил эти записные книжки к конвейеру DataFactory:

Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook

Затем я создал соединение с моими Databricks из DataFactory и добавил его в свои действия с записной книжкой. Я хотел бы запускать кластер Databricks всякий раз, когда запускается конвейер. В целом все это работает нормально. Но Databricks запускает кластер заданий для каждого действия с записной книжкой, которое занимает слишком много времени и кажется мне ненужным.

Можно ли запустить кластер в начале конвейера, а затем выключить его после завершения работы всех записных книжек? Или есть какие-то аргументы в пользу того, что для каждого вида деятельности хорошо иметь кластер заданий?


person Stev    schedule 22.02.2019    source источник


Ответы (2)


В настоящее время использование одного и того же кластера заданий для нескольких операций записной книжки невозможно.

Два альтернативных варианта:

  1. Использовать интерактивный кластер
  2. Используйте интерактивный кластер и (при разумных затратах) имейте веб-активность в начале, чтобы ЗАПУСТИТЬ кластер с помощью конечной точки REST Azure Databricks и другую веб-активность в конце после действий записной книжки на УДАЛИТЬ (ПРЕКРАТИТЬ) кластер через конечную точку REST

К сожалению, оба варианта используют интерактивные кластеры, что немного дороже по сравнению с кластерами заданий.

person databash    schedule 22.02.2019

Также существует возможное обходное решение. Вы можете создать и активировать главную записную книжку Databricks с кластером заданий из ADF, и он будет вызывать ваши записные книжки с соответствующими параметрами один за другим с помощью команды dbutils.notebook.run ().

Таким образом, вы добьетесь экономии затрат на кластер заданий, и он также будет немедленно прекращен.

См. Раздел https://towardsdatascience.com/building-a-dynamic-data-pipeline-with-databricks-and-azure-data-factory-5460ce423df5 в этой статье - ›https://towardsdatascience.com/building-a-dynamic-data-pipeline-with-databricks-and-azure-data-factory-5460ce423df5

person smeidak    schedule 11.10.2020