Вопросы по теме 'aws-glue'
Журналы AWS CloudWatch не создаются
Я пытаюсь использовать AWS Glue для запуска задания ETL, которое извлекает данные из Redshift в S3.
Когда я запускаю краулер, он успешно подключается к Redshift и получает информацию о схеме. Соответствующие журналы создаются в группе журналов...
4324 просмотров
schedule
13.11.2022
AWS Glue Crawler не создает таблицу
У меня есть сканер, созданный в AWS Glue, который не создает таблицу в каталоге данных после успешного завершения.
Сканеру требуется примерно 20 секунд для запуска, и журналы показывают, что он успешно завершен. Журнал CloudWatch показывает:...
14764 просмотров
schedule
03.07.2022
AWS Glue возвращает ошибку при выполнении задания
Я хочу сгенерировать формат файла паркета из данных, хранящихся в aws redshift, для которых я создал соединение и искатель для получения информации о данных. Все каталоги базы данных были получены успешно, но при выполнении задания по извлечению...
1652 просмотров
schedule
23.03.2022
Цены на AWS Glue по сравнению с AWS EMR
Я провожу сравнение цен на AWS Glue и AWS EMR, чтобы выбрать между EMR и Glue.
Я рассмотрел 6 DPU (4 виртуальных ЦП + 16 ГБ памяти) с выполнением задания ETL в течение 10 минут в течение 30 дней. Предполагается, что ожидаемое количество запросов...
9753 просмотров
schedule
10.04.2022
Как записывать сообщения в журнал вывода на AWS Glue?
Выходные данные и ошибки заданий AWS Glue записываются в два разных журнала CloudWatch, /aws-glue/jobs/error и /aws-glue/jobs/output по умолчанию. Когда я включаю операторы print() в свои сценарии для отладки, они записываются в журнал ошибок (...
23550 просмотров
schedule
02.02.2022
Задание AWS Glue зависает при вызове API клиента AWS Glue с помощью boto3 из контекста выполняющегося задания AWS Glue?
Я пытаюсь создать задание Glue, которое перечисляет все таблицы в базе данных в моем каталоге. Для этого я использую следующий фрагмент кода:
session = boto3.Session(region_name='us-east-2')
glue = session.client('glue')
tables =...
1775 просмотров
schedule
11.09.2022
Проблема в точке развития AWS Glue
Я пытаюсь создать новую точку развития aws glue, и ниже показано, что я получаю, когда пытаюсь подключиться к экземпляру по ssh.
MYEC2INSTANCExxxxxx.xxx.compute.amazonaws.com: в доступе отказано (публичный ключ)
Я пытаюсь следовать руководству...
746 просмотров
schedule
28.02.2023
По крайней мере одна группа безопасности должна открыть все входящие порты. AWS Glue подключается к RDS
Я все еще начинаю работать с AWS Glue и пытаюсь подключить его к своей общедоступной базе данных MySql, размещенной на RDS Aurora, чтобы получить ее данные.
Итак, я начинаю с создания сканера и в хранилище данных создаю новое соединение, как...
10591 просмотров
schedule
26.01.2024
Где хранятся события заданий aws клея?
У меня есть два задания в aws Glue. Оба задания могут успешно выполняться вручную. И я определил триггер, который запускает задание 2 при успешном запуске задания 1. Но триггер не работает. Кто-нибудь знает, где хранятся события заданий или как их...
250 просмотров
schedule
14.04.2023
Порядок столбцов управления AWS Glue в консоли
Я только начинаю экспериментировать с клеем AWS, и мне удалось перенести данные из моей среды Aurora MySQL в свою базу данных PostgreSQL. Когда сканер создает каталог данных для таблицы, с которой я экспериментирую, все столбцы не в порядке, а затем,...
1294 просмотров
schedule
21.04.2022
Отметка времени не загружается в таблицу Redshift из Glue
У меня есть отметка времени в формате YYYY-MM-DD XX:XX:XX в файле csv, который хранится в S3, но когда я использую тип данных отметки времени для загрузки в базу данных Redshift с помощью Glue, столбец отметки времени имеет значение NULL. Похоже,...
879 просмотров
schedule
13.12.2022
AWS Glue: сканер неверно интерпретирует временные метки как строки. GLUE ETL, предназначенный для преобразования строк в метки времени, делает их NULL
Я поигрался с AWS Glue для быстрой аналитики, следуя руководству здесь
Хотя мне удавалось успешно создавать сканеры и обнаруживать данные в Athena, у меня были проблемы с типами данных, созданными поисковым роботом. Типы данных date и...
10328 просмотров
schedule
02.05.2023
Чтение Athena из CSV-файлов AWS DMS
Я настроил свою DMS для чтения из базы данных MySQL и переноса ее данных на S3 с репликацией. Кажется, все работает нормально, он создает большие CSV-файлы для всех данных и начинает создавать меньшие CSV-файлы с дельтами.
Проблема в том, что...
481 просмотров
schedule
21.09.2023
Когда использовать спектр Amazon Redshift вместо AWS Glue ETL для запроса данных Amazon S3
Поскольку AWS Glue ETL может быть скриптом Python, его можно использовать для выполнения SQL-запросов с использованием интерфейсов базы данных, а данные можно загружать из Amazon S3 в DynamicFrame. Я пытаюсь понять, когда выгодно использовать спектр...
1002 просмотров
schedule
11.01.2023
Как написать выражение предиката в AWS Glue
Я новичок в AWS Glue и PySpark. Ниже приведен пример кода
glue_context.create_dynamic_frame.from_catalog(
database = "my_S3_data_set",
table_name = "catalog_data_table",
push_down_predicate = my_partition_predicate)
в...
1433 просмотров
schedule
24.02.2022
Логическое преобразование AWS Glue
Я использую AWS Glue, и мне нужно преобразовать логические (True и False) столбцы в схеме хранилища данных Redshift в значения «Да» / «Нет» в другой схеме Redshift. В настоящее время не существует простого способа сделать это в графическом интерфейсе...
581 просмотров
schedule
08.05.2024
AWS Glue - запуск задания ETL и ожидающее выполнение
Иногда, когда я хочу запустить задание ETL в AWS Glue, оно запускается немедленно. Но довольно часто у меня случается, что до того, как задание ETL что-то делает, проходит несколько минут - я ничего не вижу в журналах, только «ожидающее выполнение»....
4236 просмотров
schedule
30.03.2022
Лимит AWS Glue JSON
Попытка использовать AWS Glue для автоматического сканирования и каталогизации файлов JSON в корзине S3, как описано здесь:
https://docs.aws.amazon.com/glue/latest/dg/add-crawler.html
Файлы размером менее 1 МБ успешно каталогизируются, однако...
763 просмотров
schedule
01.05.2022
Шаблон Grok для непечатаемых символов
У нас есть файлы, разделенные управляющим символом (backspace);
1234<0x008>john<0x08>smith
4321<0x008>steve<0x008>idle
Какой бы шаблон grok я ни пробовал, на самом деле он не анализировал файл, находящийся в s3, а...
113 просмотров
schedule
27.05.2023
Чтение и запись в MYSQL в AWS Glue
введите здесь описание изображения Я могу подключиться к MYSQL при локальном запуске кода Pyspark в записной книжке juypter, но с тем же кодом. Я получаю сообщение об ошибке связи в AWS Glue во время выполнения кода. Я добавил MySQL jar в файлы...
3105 просмотров
schedule
14.05.2022