Публикации по теме 'apache-airflow'
Хранение данных под (вашим) контролем с помощью Apache Airflow
Клиентам требуется все больше и больше информации, основанной на их данных, но для этого необходимо наличие некоторых базовых ресурсов, позволяющих проводить более продвинутый анализ и методы. Существует множество инструментов и дисциплин, связанных с обработкой данных во всех аспектах, как локально, так и в виде облачных сервисов, но мы видим, что наши клиенты ценят сохранение определенного уровня владения всем процессом. В этом контексте Apache Airflow становится хорошим кандидатом на..
Вопросы по теме 'apache-airflow'
Как Airflow подключается к Spark и можно ли установить разные права доступа для пользователей в Airflow?
Привет, я все еще новичок в Airflow. Я хотел бы знать, как Airflow подключается к Spark? У меня есть сервер с разными учетными записями (или профилями) для доступа к кластеру Spark. Интересно, есть ли у Airflow фиксированный профиль для подключения...
288 просмотров
schedule
04.07.2022
Создайте уникальное имя файла и получите доступ к этому файлу во всех задачах воздушного потока.
Можем ли мы создавать уникальное имя файла каждый раз, когда запускается даг воздушного потока, и получать доступ к этому файлу из всех задач? Я попытался создать глобальную переменную (output_filename) и добавить к ней метку времени. Но когда я...
1757 просмотров
schedule
21.09.2023
Как вручную запустить Airflow DAG в определенном каталоге
Я оцениваю, подходит ли Airflow для моих нужд (в биоинформатике). У меня проблемы с моделью Airflow. Конкретно:
Где на самом деле выполняется файл DAG? Каков его контекст? Как передать входные данные в файл определения DAG? (Например, я не...
1354 просмотров
schedule
29.11.2022
экспериментальный api dagrun воздушного потока дает ошибку 400: какой должен быть входной параметр
POST-запрос от почтальона к http://host:8080/api/experimental/dags/test_flow/dag_runs выдает «400 неверный запрос: браузер (или прокси) отправил запрос, который этот сервер не может понять». когда он пытается получить_json из запроса. т.е. в...
1903 просмотров
schedule
19.01.2023
Как успешно выйти из задачи на полпути в даге Airflow?
У меня есть даг, который проверяет файлы на FTP-сервере (воздушный поток работает на отдельном сервере). Если файл (ы) существует, он (ы) перемещается в S3 (мы архивируем здесь). Оттуда имя файла передается в задание отправки Spark. Искровое...
1533 просмотров
schedule
14.10.2022
Рабочий Airflow не слушает очередь rabbitmq по умолчанию
Я настроил Airflow с помощью брокера rabbitmq, сервисы:
airflow worker
airflow scheduler
airflow webserver
идут без ошибок. Планировщик помещает задачи для выполнения в очередь default rabbitmq:
Даже я пробовал airflow...
3885 просмотров
schedule
23.09.2022
Airflow возвращает Backfill, выполненный без выполнения задач
Я запускаю Airflow и пытаюсь повторить какую-то задачу, которую мы создаем, из командной строки.
При запуске веб-сервера воздушного потока все работает как положено. Но когда я запускаю airflow backfill dag task '2017-08-12' , воздушный поток...
1265 просмотров
schedule
02.03.2023
BigQuery с Airflow — отсутствует идентификатор проекта
Пример ниже:
https://cloud.google.com/blog/big-data/2017/07/how-to-aggregate-data-for-bigquery-using-apache-airflow
При выполнении одной из команд:
airflow test bigquery_github_trends_v1 bq_check_githubarchive_day 2017-06-02
получаю...
3120 просмотров
schedule
12.03.2024
Apache Airflow - BigQueryOperator: как динамически установить раздел destination_dataset_table
Мне нужна задача BigQueryOperator, подобная следующей: в которой мне нужно сохранить результат запроса в многораздельную таблицу. Однако "month_start" должен быть получен из фактического DAG execution_date . Мне не удалось найти никаких...
2607 просмотров
schedule
12.02.2024
Apache Airflow Как указать пользователя Unix при использовании BashOperator
В настоящее время моя команда тестирует Airflow для создания рабочих процессов заданий Spark. Мы используем Airflow версии 1.8.0. У нас есть веб-сервер Airflow, работающий на удаленном компьютере, к которому у всех есть доступ по SSH. Другой член...
1341 просмотров
schedule
05.03.2024
Тупик SubDagOperator воздушного потока
Я столкнулся с проблемой, когда группа DAG, состоящая из нескольких SubDagOperators, зависает на неопределенный срок.
Настройка: Использование CeleryExecutor. Для целей этого примера предположим, что у нас есть один рабочий процесс, который может...
2269 просмотров
schedule
06.03.2024
Копирование файлов из одной корзины Google Cloud Storage в другую с помощью Apache Airflow
Проблема : я хочу скопировать файлы из папки в Google Cloud Storage Bucket (например, Folder1 в Bucket1) в другой Bucket (например, Bucket2). Я не могу найти оператора воздушного потока для облачного хранилища Google для копирования файлов.
2650 просмотров
schedule
10.10.2022
очистить восходящую задачу в воздушном потоке внутри dag
у меня задача в даге воздушного потока. у него есть три дочерних задачи. К сожалению, бывают случаи, когда эта родительская задача завершается успешно, но два из трех дочерних элементов завершаются неудачно (и повторная попытка для дочерних...
3042 просмотров
schedule
13.09.2022
Как включить SSL в Apache Airflow?
Я использую Airflow 1.7.0 с LocalExecutor, и документация предполагает, что для включения SSL нам нужно передать путь сертификата и ключа и изменить порт на 443, как показано ниже.
[webserver]
web_server_ssl_cert = <path to cert>...
4885 просмотров
schedule
30.04.2023