Вопросы по теме 'aws-glue'

Журналы AWS CloudWatch не создаются
Я пытаюсь использовать AWS Glue для запуска задания ETL, которое извлекает данные из Redshift в S3. Когда я запускаю краулер, он успешно подключается к Redshift и получает информацию о схеме. Соответствующие журналы создаются в группе журналов...
4324 просмотров
schedule 13.11.2022

AWS Glue Crawler не создает таблицу
У меня есть сканер, созданный в AWS Glue, который не создает таблицу в каталоге данных после успешного завершения. Сканеру требуется примерно 20 секунд для запуска, и журналы показывают, что он успешно завершен. Журнал CloudWatch показывает:...
14764 просмотров
schedule 03.07.2022

AWS Glue возвращает ошибку при выполнении задания
Я хочу сгенерировать формат файла паркета из данных, хранящихся в aws redshift, для которых я создал соединение и искатель для получения информации о данных. Все каталоги базы данных были получены успешно, но при выполнении задания по извлечению...
1652 просмотров

Цены на AWS Glue по сравнению с AWS EMR
Я провожу сравнение цен на AWS Glue и AWS EMR, чтобы выбрать между EMR и Glue. Я рассмотрел 6 DPU (4 виртуальных ЦП + 16 ГБ памяти) с выполнением задания ETL в течение 10 минут в течение 30 дней. Предполагается, что ожидаемое количество запросов...
9753 просмотров

Как записывать сообщения в журнал вывода на AWS Glue?
Выходные данные и ошибки заданий AWS Glue записываются в два разных журнала CloudWatch, /aws-glue/jobs/error и /aws-glue/jobs/output по умолчанию. Когда я включаю операторы print() в свои сценарии для отладки, они записываются в журнал ошибок (...
23550 просмотров
schedule 02.02.2022

Задание AWS Glue зависает при вызове API клиента AWS Glue с помощью boto3 из контекста выполняющегося задания AWS Glue?
Я пытаюсь создать задание Glue, которое перечисляет все таблицы в базе данных в моем каталоге. Для этого я использую следующий фрагмент кода: session = boto3.Session(region_name='us-east-2') glue = session.client('glue') tables =...
1775 просмотров
schedule 11.09.2022

Проблема в точке развития AWS Glue
Я пытаюсь создать новую точку развития aws glue, и ниже показано, что я получаю, когда пытаюсь подключиться к экземпляру по ssh. MYEC2INSTANCExxxxxx.xxx.compute.amazonaws.com: в доступе отказано (публичный ключ) Я пытаюсь следовать руководству...
746 просмотров
schedule 28.02.2023

По крайней мере одна группа безопасности должна открыть все входящие порты. AWS Glue подключается к RDS
Я все еще начинаю работать с AWS Glue и пытаюсь подключить его к своей общедоступной базе данных MySql, размещенной на RDS Aurora, чтобы получить ее данные. Итак, я начинаю с создания сканера и в хранилище данных создаю новое соединение, как...
10591 просмотров
schedule 26.01.2024

Где хранятся события заданий aws клея?
У меня есть два задания в aws Glue. Оба задания могут успешно выполняться вручную. И я определил триггер, который запускает задание 2 при успешном запуске задания 1. Но триггер не работает. Кто-нибудь знает, где хранятся события заданий или как их...
250 просмотров
schedule 14.04.2023

Порядок столбцов управления AWS Glue в консоли
Я только начинаю экспериментировать с клеем AWS, и мне удалось перенести данные из моей среды Aurora MySQL в свою базу данных PostgreSQL. Когда сканер создает каталог данных для таблицы, с которой я экспериментирую, все столбцы не в порядке, а затем,...
1294 просмотров

Отметка времени не загружается в таблицу Redshift из Glue
У меня есть отметка времени в формате YYYY-MM-DD XX:XX:XX в файле csv, который хранится в S3, но когда я использую тип данных отметки времени для загрузки в базу данных Redshift с помощью Glue, столбец отметки времени имеет значение NULL. Похоже,...
879 просмотров

AWS Glue: сканер неверно интерпретирует временные метки как строки. GLUE ETL, предназначенный для преобразования строк в метки времени, делает их NULL
Я поигрался с AWS Glue для быстрой аналитики, следуя руководству здесь Хотя мне удавалось успешно создавать сканеры и обнаруживать данные в Athena, у меня были проблемы с типами данных, созданными поисковым роботом. Типы данных date и...
10328 просмотров

Чтение Athena из CSV-файлов AWS DMS
Я настроил свою DMS для чтения из базы данных MySQL и переноса ее данных на S3 с репликацией. Кажется, все работает нормально, он создает большие CSV-файлы для всех данных и начинает создавать меньшие CSV-файлы с дельтами. Проблема в том, что...
481 просмотров

Когда использовать спектр Amazon Redshift вместо AWS Glue ETL для запроса данных Amazon S3
Поскольку AWS Glue ETL может быть скриптом Python, его можно использовать для выполнения SQL-запросов с использованием интерфейсов базы данных, а данные можно загружать из Amazon S3 в DynamicFrame. Я пытаюсь понять, когда выгодно использовать спектр...
1002 просмотров

Как написать выражение предиката в AWS Glue
Я новичок в AWS Glue и PySpark. Ниже приведен пример кода glue_context.create_dynamic_frame.from_catalog( database = "my_S3_data_set", table_name = "catalog_data_table", push_down_predicate = my_partition_predicate) в...
1433 просмотров

Логическое преобразование AWS Glue
Я использую AWS Glue, и мне нужно преобразовать логические (True и False) столбцы в схеме хранилища данных Redshift в значения «Да» / «Нет» в другой схеме Redshift. В настоящее время не существует простого способа сделать это в графическом интерфейсе...
581 просмотров

AWS Glue - запуск задания ETL и ожидающее выполнение
Иногда, когда я хочу запустить задание ETL в AWS Glue, оно запускается немедленно. Но довольно часто у меня случается, что до того, как задание ETL что-то делает, проходит несколько минут - я ничего не вижу в журналах, только «ожидающее выполнение»....
4236 просмотров
schedule 30.03.2022

Лимит AWS Glue JSON
Попытка использовать AWS Glue для автоматического сканирования и каталогизации файлов JSON в корзине S3, как описано здесь: https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html Файлы размером менее 1 МБ успешно каталогизируются, однако...
763 просмотров
schedule 01.05.2022

Шаблон Grok для непечатаемых символов
У нас есть файлы, разделенные управляющим символом (backspace); 1234<0x008>john<0x08>smith 4321<0x008>steve<0x008>idle Какой бы шаблон grok я ни пробовал, на самом деле он не анализировал файл, находящийся в s3, а...
113 просмотров

Чтение и запись в MYSQL в AWS Glue
введите здесь описание изображения Я могу подключиться к MYSQL при локальном запуске кода Pyspark в записной книжке juypter, но с тем же кодом. Я получаю сообщение об ошибке связи в AWS Glue во время выполнения кода. Я добавил MySQL jar в файлы...
3105 просмотров