Когда использовать спектр Amazon Redshift вместо AWS Glue ETL для запроса данных Amazon S3

Поскольку AWS Glue ETL может быть скриптом Python, его можно использовать для выполнения SQL-запросов с использованием интерфейсов базы данных, а данные можно загружать из Amazon S3 в DynamicFrame. Я пытаюсь понять, когда выгодно использовать спектр Amazon Redshift для запроса данных S3.


person satheesh prabhakaran    schedule 13.09.2018    source источник
comment
Если вы хотите снизить стоимость хранения и сохранить исходные данные как есть, без каких-либо преобразований.   -  person SunSmiles    schedule 12.02.2019


Ответы (1)


AWS Glue используется для сбора метаданных (сканирования) и для ETL. Это не для отчетности или аналитики. Он может применять очень сложные преобразования (идеально подходит для сложных требований ETL).

Redshift Spectrum в основном используется для создания отчетов и анализа данных, хранящихся в S3, обычно в сочетании с данными, хранящимися в Redshift. Однако МОЖНО также использовать для простого ETL. Намного проще настроить и использовать, чем Glue, если вам просто нужен простой тип ETL.

Есть еще один вариант, о котором вы не упоминаете, это amazon Athena, это отличный инструмент для выполнения запросов непосредственно к данным S3. Он похож на Redshift Spectrum, но обычно быстрее и дешевле, в зависимости от вашего варианта использования. Он не может объединять данные S3 с данными Redshift.

person Jon Scott    schedule 13.09.2018