Вопросы по теме 'aws-glue-data-catalog'

Шаблон Grok для непечатаемых символов
У нас есть файлы, разделенные управляющим символом (backspace); 1234<0x008>john<0x08>smith 4321<0x008>steve<0x008>idle Какой бы шаблон grok я ни пробовал, на самом деле он не анализировал файл, находящийся в s3, а...
113 просмотров

Чтение и запись в MYSQL в AWS Glue
введите здесь описание изображения Я могу подключиться к MYSQL при локальном запуске кода Pyspark в записной книжке juypter, но с тем же кодом. Я получаю сообщение об ошибке связи в AWS Glue во время выполнения кода. Я добавил MySQL jar в файлы...
3105 просмотров

AWS Glue - avro to parquet - Работа по приклеиванию пустого каркаса из каталога
Я использую AWS Glue Crawler для сканирования примерно 170 ГБ данных avro для создания таблицы каталога данных. В данных avro есть несколько разных версий схемы, но поисковому роботу все же удается объединить данные в единую таблицу (я включил...
786 просмотров

Как преобразовать сжатые файлы без заголовков, файлы с разделителями, хранящиеся в S3, в паркет с помощью AWS Glue
В настоящее время у меня есть несколько тысяч сжатых GZIP файлов без заголовков, разделенных конвейером, в S3 общим объемом ~ 10 ТБ с той же схемой. Как лучше всего в AWS Glue (1) добавить файл заголовка, (2) преобразовать в формат паркета, разбитый...
609 просмотров

aws glue rds инкрементная нагрузка
Я пытаюсь загрузить данные из AWS RDS (MySQL) в красное смещение с помощью клея AWS. И я хочу загружать данные постепенно. Используя закладки заданий, клей может отслеживать только недавно добавленные данные, но не может отслеживать обновленные...
2205 просмотров

Закладка задания AWS Glue создает дубликаты для файлов csv
Мы получаем 1 CSV-файл каждый день в корзине s3 от нашего поставщика в 11 утра. Я конвертирую этот файл в формат паркета с помощью Клея в 11:30. Я включил закладку задания, чтобы не обрабатывать уже обработанные файлы. Тем не менее, я вижу, что...
776 просмотров

Соединения AWS Glue из секретного менеджера AWS
Есть ли способ получить пароль от диспетчера секретов AWS при создании соединений JDBC в AWS Glue, а не вручную?
1706 просмотров
schedule 24.09.2022

получить список таблиц в базе данных с помощью boto3
Я пытаюсь получить список таблиц из базы данных в моем каталоге данных aws. Я пытаюсь использовать boto3. Я запускаю приведенный ниже код на aws в блокноте sagemaker. Он работает вечно (например, более 30 минут) и не возвращает никаких результатов....
2986 просмотров

API каталога AWS Glue: поле параметров в метаданных разной структуры
Каталог данных AWS Glue состоит из разных структур, например База данных , Таблица , Раздел , Column и т. д. Не просмотрел все из них , но кажется, что Parameters поля (массив карт пар ключ-значение) присутствует во всех из них. Я заметил,...
1433 просмотров

Как Redshift Spectrum сканирует данные?
Учитывая источник данных из 1,4 ТБ данных Parquet на S3, разделенных полем отметки времени (так что разделы year - month - day ), я запрашиваю данные за определенный день (2,6 ГБ данных) и извлекаю все доступные поля в Parquet. файлы через...
305 просмотров