Как Airflow подключается к Spark и можно ли установить разные права доступа для пользователей в Airflow?

Привет, я все еще новичок в Airflow. Я хотел бы знать, как Airflow подключается к Spark? У меня есть сервер с разными учетными записями (или профилями) для доступа к кластеру Spark. Интересно, есть ли у Airflow фиксированный профиль для подключения искры? или это следует из профиля пользователя?

Кроме того, можно ли установить разные права доступа для пользователей в Airflow? Например, пользователь A, имеющий право доступа к местоположению A в Spark (или hdfs), может запускать только задачу, связанную с местоположением A. (поэтому невозможно запустить какое-либо задание из местоположения B).

Заранее спасибо.


person Iamasupernoob    schedule 18.05.2017    source источник


Ответы (1)


Вы можете посмотреть на SparkSubmitOperator, созданный сообществом, в папке conrtib репозитория Airflow. По сути, этот оператор запускает подпроцесс spark-submit через python и ожидает его завершения. Этот оператор был значительно улучшен по сравнению с предыдущей стабильной версией (1.8.1). Это работает очень хорошо, если у вас уже есть установка искры и вы не хотите, чтобы поток воздуха контролировал, где запускаются искровые задания.

Вопрос прав пользователей более сложен. Один из способов исправить это - изменить SparkSubmitOperator, чтобы установить параметры среды для подпроцесса и принять этот параметр в качестве (дополнительных) входных данных для этого оператора.

person Him    schedule 14.06.2017