Поскольку AWS Glue ETL может быть скриптом Python, его можно использовать для выполнения SQL-запросов с использованием интерфейсов базы данных, а данные можно загружать из Amazon S3 в DynamicFrame. Я пытаюсь понять, когда выгодно использовать спектр Amazon Redshift для запроса данных S3.
Когда использовать спектр Amazon Redshift вместо AWS Glue ETL для запроса данных Amazon S3
Ответы (1)
AWS Glue используется для сбора метаданных (сканирования) и для ETL. Это не для отчетности или аналитики. Он может применять очень сложные преобразования (идеально подходит для сложных требований ETL).
Redshift Spectrum в основном используется для создания отчетов и анализа данных, хранящихся в S3, обычно в сочетании с данными, хранящимися в Redshift. Однако МОЖНО также использовать для простого ETL. Намного проще настроить и использовать, чем Glue, если вам просто нужен простой тип ETL.
Есть еще один вариант, о котором вы не упоминаете, это amazon Athena, это отличный инструмент для выполнения запросов непосредственно к данным S3. Он похож на Redshift Spectrum, но обычно быстрее и дешевле, в зависимости от вашего варианта использования. Он не может объединять данные S3 с данными Redshift.