Azure Databricks с Github

Я работаю с записной книжкой Databricks и синхронизировал ее с GitHub. Мы два члена, работающие над двумя разными ветками в репозитории Github. Когда мы запускали действие фабрики данных Azure на этой записной книжке, она запускала последнюю версию этой записной книжки.

Итак, какова цель использования GitHub в качестве контроля версий, поскольку мы не можем контролировать версию Notebook при выполнении извне.

Что делать, если многие разработчики фиксируют свои изменения, но на этапе EOD нам нужно выполнить изменения основной ветки, которые являются наиболее стабильными.


person Rohi_Dev_1.0    schedule 20.08.2018    source источник


Ответы (2)


Записная книжка Databricks не перезагружается из git. Вам нужно сделать копию записной книжки в личной папке, разработать и зафиксировать в ветке git feature. После запроса на перенос в основную ветку вам необходимо (повторно) развернуть записные книжки из git.

Записную книжку, в которой запущен ваш код, изменять нельзя, только личную копию.

person Wouter Dunnes    schedule 16.03.2020

На самом деле мы не используем всю синхронизацию git для блоков данных, а используем функции export_dir / import_dir из databricks-cli. Таким образом, у нас есть больший контроль над тем, что и когда импортировать ... И вы можете делать коммиты для нескольких записных книжек (поскольку одна функция обычно распространяется на несколько записных книжек).

Надеюсь, это поможет.

person ferdyh    schedule 26.08.2020