Вопросы по теме 'amazon-data-pipeline'

Как перенести файл/файлы из одной корзины/каталога S3 в другую с помощью AWS Data Pipeline
Я хотел бы перенести файл (т.е. скопировать его в целевой каталог и удалить из исходного каталога) из одного каталога корзины S3 в другой, используя конвейер данных AWS. Я попытался использовать ShellCommandActivity и создал скрипт, который...
1456 просмотров

Amazon AWS: DataPipelineDefaultRole / EDPSession не авторизован для выполнения iam: ListRolePolicies
Мой менеджер назначил мне роль IAM в AWS, и я пытаюсь настроить Amazon Data Pipeline. При попытке активировать PipeLine я постоянно сталкиваюсь с проблемами с разрешениями и проблемами авторизации, подобными приведенным ниже. ПРЕДУПРЕЖДЕНИЕ....
2788 просмотров

Действие RedshiftCopy AWS Data Pipeline не может найти подходящие драйверы
Я настроил действие RedshiftCopy в конвейере данных AWS, но оно продолжает давать сбой со следующей ошибкой: java.lang.RuntimeException: java.sql.SQLException: No suitable driver found for <REDACTED> at...
876 просмотров

Создание оповещения по электронной почте в AWS DataPipeline
Я знаю, что AWS Data Pipeline поддерживает и разрешает оповещения SNS, но я хочу, чтобы оповещение или электронное письмо отправлялось, если запрос что-либо возвращает. По сути, я хочу запустить SQLActivity очень простого запроса на выборку, и если...
373 просмотров

Используйте имя таблицы из Amazon RDS в выходном CSV-файле, отправляемом на S3.
Мне удалось получить конвейер данных для передачи данных из набора таблиц в Amazon RDS (Aurora) в набор файлов .csv в S3 с «copyActivity», соединяющим два узла данных. Однако я бы хотел, чтобы файл .csv имел имя таблицы (или представления), из...
117 просмотров

Резервное копирование только новых записей из DynamoDB в S3 и загрузка их в RedShift
Я видел, что подобные вопросы уже существуют: Резервное копирование AWS Dynamodb на S3 Копирование только новых записей из AWS DynamoDB в AWS Redshift Загрузка данных из Amazon DynamoDB в красное смещение К сожалению, большинство из...
1116 просмотров

Как я могу присоединить том EBS к кластеру EMR с помощью AWS Data Pipeline?
AWS недавно предоставила возможность присоединить том EBS к конкретным типам инстансов кластера, таким как m4. Хотя можно присоединить том EBS с помощью EMR, я не могу найти способ сделать это через AWS Data Pipeline. Я что-то упускаю?
821 просмотров

Копировать выбранные элементы из таблицы AWS dyanmoDB в другую таблицу
Я хочу скопировать данные из одной таблицы Amazon Dynamodb в другую таблицу Amazon Dynamodb (в том же регионе). 1] У меня есть таблица MUSIC, в которой есть 20 элементов. 2] У меня есть другая таблица MUSIC_ST (с той же схемой, что и таблица...
2466 просмотров

БЫСТРЫЙ экспорт таблицы Dynamo DB в S3
Итак, я хочу сбросить всю таблицу DynamoDB на S3. В этом руководстве дается хорошее объяснение как это сделать. Дал тест, это сработало ... отлично Однако теперь я хочу использовать его для своих производственных данных большого размера (> 100...
951 просмотров

Как указать имя Amazon Data Pipeline?
Можно ли использовать имя конвейера данных Amazon в качестве переменной внутри самого конвейера данных? Если да, то как вы можете это сделать?
195 просмотров
schedule 20.12.2022

Настройте AWS Data Pipeline на давно работающем кластере EMR.
Если я хочу иметь долго работающий кластер EMR, а после этого я хочу настроить Data Pipeline, выполняющий что-то в этом кластере, как я могу это сделать? Я должен установить Task Runner в этом кластере EMR? Или, может быть, Task Runner будет...
1004 просмотров

Запустите скрипт Python через конвейеры данных AWS.
Я использую конвейеры данных AWS для выполнения ночных SQL-запросов, которые заполняют таблицы для сводной статистики. Пользовательский интерфейс немного странный, но в конце концов я его установил и начал работать. Теперь я хотел бы сделать...
7394 просмотров
schedule 04.11.2023

Имеет ли смысл использовать Google DataFlow/Apache Beam для распараллеливания задач обработки изображений или сканирования?
Я рассматриваю Google DataFlow как вариант для запуска конвейера, который включает такие шаги, как: Загрузка изображений из Интернета; Обработка изображений. Мне нравится, что DataFlow управляет жизненным циклом виртуальных машин,...
1468 просмотров

Цены на AWS Data Pipeline для запусков по запросу
Документация по конвейеру данных AWS содержит следующую информацию о ценах на конвейеры данных. Активность с высокой частотой — 1,00 долл. США в месяц Активность с низкой частотой — 0,60 долл. США в месяц Неактивные конвейеры — 1,00 долл. США в...
1141 просмотров

Как разделить данные при архивировании из базы данных AWS в S3
Для проекта, который мы унаследовали, у нас есть большой набор устаревших данных, 600 ГБ, которые мы хотели бы заархивировать, но при необходимости они все еще доступны. В соответствии с этим руководством мы рассматриваем возможность использования...
249 просмотров

Непрерывный прием данных из предварительных источников данных в красное смещение
Мне необходимо принимать данные из нескольких локальных источников данных в мой Redshift. Этот прием будет запланированным действием, выполняемым каждые 6 часов в день. Процесс должен иметь возможность идентифицировать дельта-записи и загружать...
401 просмотров

AWS Lambda для активации конвейера данных
Я пытаюсь активировать конвейер данных на основе наличия *.tar файлов в S3. Я создал функцию Lambda и написал код Python Boto 3 для активации конвейера данных. Я протестировал функцию Lambda и обнаружил, что она работает, когда файл .tar...
1887 просмотров

Перенести данные из локальной среды в AWS redshift
Мне нужно переместить данные из локальной среды в AWS redshift (region1). какой самый быстрый способ? 1) используйте AWS Snowball для локального перехода на s3 (region1), а затем используйте команду Redshift SQL COPY для копирования данных из s3 в...
274 просмотров

Увеличение и уменьшение RCU DynamoDb с помощью AWS DataPipeline
У меня есть таблица AWS DynamoDb , которая требует большого количества операций записи. Я настроил его в режиме выделенной емкости с 10,000 WCU и 1000 RCU. Я использую AWS Datapipeline для экспорта содержимого DynamoDb в S3. Конвейер...
196 просмотров

Airflow - Задачи, которые записывают файлы локально (GCS)
Я занимаюсь созданием нескольких конвейеров в Airflow после нескольких последних лет использования AWS DataPipeline. У меня есть пара вопросов, которые я не могу ответить, и надеюсь на некоторые разъяснения. Для контекста я использую Google Cloud...
894 просмотров