Публикации по теме 'apache-airflow'


Хранение данных под (вашим) контролем с помощью Apache Airflow
Клиентам требуется все больше и больше информации, основанной на их данных, но для этого необходимо наличие некоторых базовых ресурсов, позволяющих проводить более продвинутый анализ и методы. Существует множество инструментов и дисциплин, связанных с обработкой данных во всех аспектах, как локально, так и в виде облачных сервисов, но мы видим, что наши клиенты ценят сохранение определенного уровня владения всем процессом. В этом контексте Apache Airflow становится хорошим кандидатом на..

Вопросы по теме 'apache-airflow'

Как Airflow подключается к Spark и можно ли установить разные права доступа для пользователей в Airflow?
Привет, я все еще новичок в Airflow. Я хотел бы знать, как Airflow подключается к Spark? У меня есть сервер с разными учетными записями (или профилями) для доступа к кластеру Spark. Интересно, есть ли у Airflow фиксированный профиль для подключения...
288 просмотров

Создайте уникальное имя файла и получите доступ к этому файлу во всех задачах воздушного потока.
Можем ли мы создавать уникальное имя файла каждый раз, когда запускается даг воздушного потока, и получать доступ к этому файлу из всех задач? Я попытался создать глобальную переменную (output_filename) и добавить к ней метку времени. Но когда я...
1757 просмотров
schedule 21.09.2023

Как вручную запустить Airflow DAG в определенном каталоге
Я оцениваю, подходит ли Airflow для моих нужд (в биоинформатике). У меня проблемы с моделью Airflow. Конкретно: Где на самом деле выполняется файл DAG? Каков его контекст? Как передать входные данные в файл определения DAG? (Например, я не...
1354 просмотров

экспериментальный api dagrun воздушного потока дает ошибку 400: какой должен быть входной параметр
POST-запрос от почтальона к http://host:8080/api/experimental/dags/test_flow/dag_runs выдает «400 неверный запрос: браузер (или прокси) отправил запрос, который этот сервер не может понять». когда он пытается получить_json из запроса. т.е. в...
1903 просмотров
schedule 19.01.2023

Как успешно выйти из задачи на полпути в даге Airflow?
У меня есть даг, который проверяет файлы на FTP-сервере (воздушный поток работает на отдельном сервере). Если файл (ы) существует, он (ы) перемещается в S3 (мы архивируем здесь). Оттуда имя файла передается в задание отправки Spark. Искровое...
1533 просмотров
schedule 14.10.2022

Рабочий Airflow не слушает очередь rabbitmq по умолчанию
Я настроил Airflow с помощью брокера rabbitmq, сервисы: airflow worker airflow scheduler airflow webserver идут без ошибок. Планировщик помещает задачи для выполнения в очередь default rabbitmq: Даже я пробовал airflow...
3885 просмотров
schedule 23.09.2022

Airflow возвращает Backfill, выполненный без выполнения задач
Я запускаю Airflow и пытаюсь повторить какую-то задачу, которую мы создаем, из командной строки. При запуске веб-сервера воздушного потока все работает как положено. Но когда я запускаю airflow backfill dag task '2017-08-12' , воздушный поток...
1265 просмотров
schedule 02.03.2023

BigQuery с Airflow — отсутствует идентификатор проекта
Пример ниже: https://cloud.google.com/blog/big-data/2017/07/how-to-aggregate-data-for-bigquery-using-apache-airflow При выполнении одной из команд: airflow test bigquery_github_trends_v1 bq_check_githubarchive_day 2017-06-02 получаю...
3120 просмотров
schedule 12.03.2024

Apache Airflow - BigQueryOperator: как динамически установить раздел destination_dataset_table
Мне нужна задача BigQueryOperator, подобная следующей: в которой мне нужно сохранить результат запроса в многораздельную таблицу. Однако "month_start" должен быть получен из фактического DAG execution_date . Мне не удалось найти никаких...
2607 просмотров
schedule 12.02.2024

Apache Airflow Как указать пользователя Unix при использовании BashOperator
В настоящее время моя команда тестирует Airflow для создания рабочих процессов заданий Spark. Мы используем Airflow версии 1.8.0. У нас есть веб-сервер Airflow, работающий на удаленном компьютере, к которому у всех есть доступ по SSH. Другой член...
1341 просмотров

Тупик SubDagOperator воздушного потока
Я столкнулся с проблемой, когда группа DAG, состоящая из нескольких SubDagOperators, зависает на неопределенный срок. Настройка: Использование CeleryExecutor. Для целей этого примера предположим, что у нас есть один рабочий процесс, который может...
2269 просмотров
schedule 06.03.2024

Копирование файлов из одной корзины Google Cloud Storage в другую с помощью Apache Airflow
Проблема : я хочу скопировать файлы из папки в Google Cloud Storage Bucket (например, Folder1 в Bucket1) в другой Bucket (например, Bucket2). Я не могу найти оператора воздушного потока для облачного хранилища Google для копирования файлов.
2650 просмотров

очистить восходящую задачу в воздушном потоке внутри dag
у меня задача в даге воздушного потока. у него есть три дочерних задачи. К сожалению, бывают случаи, когда эта родительская задача завершается успешно, но два из трех дочерних элементов завершаются неудачно (и повторная попытка для дочерних...
3042 просмотров

Как включить SSL в Apache Airflow?
Я использую Airflow 1.7.0 с LocalExecutor, и документация предполагает, что для включения SSL нам нужно передать путь сертификата и ключа и изменить порт на 443, как показано ниже. [webserver] web_server_ssl_cert = <path to cert>...
4885 просмотров