В чем разница между s3 select и athena

Я пытаюсь понять, в чем разница между сервисом aws athena и недавно выпущенным s3 select (все еще в предварительной версии). И чем разные варианты использования для них обоих? Кажется, оба помогают в выборе частичных данных из s3.


person user3444718    schedule 05.03.2018    source источник
comment
Обратите внимание, что Athena требует определить схему данных, прежде чем вы сможете отправлять запросы. Запросы S3 SELECT являются специальными.   -  person Jason    schedule 28.06.2019


Ответы (7)


Также похоже, что нам не хватает одной важной вещи:

S3 Select работает только с одним объектом, в то время как Athena запускает запросы по нескольким путям, которые будут включать все файлы по этому пути.

person abc123    schedule 26.08.2020
comment
Я думаю, что это принципиальная разница, которая их больше всего разделяет. С помощью Athena вы можете выполнять поиск по всему сегменту, в то время как S3 Select требует, чтобы вы знали конкретный объект для запроса. Я думаю, что S3 Select может найти свое применение в некоторых бессерверных приложениях (хотя Афине там точно не место), но это будет сильно зависеть от производительности такого запроса. - person Dmitry Kankalovich; 15.06.2021

Вы можете рассматривать AWS S3 Select как экономичную оптимизацию хранилища, которая позволяет извлекать данные, соответствующие предикату в S3 и ледниковой фильтрации, известной как push down.

AWS Athena - это полностью управляемый аналитический сервис, который позволяет выполнять произвольные запросы, совместимые с ANSI SQL, - группировать по, имеющим, оконным и географическим функциям, SQL DDL и DML.

person Sayat Satybald    schedule 22.04.2018

Athena (судя по тому немногому, что я использовал) больше предназначена как инструмент для бизнес-отчетности или анализа, поддерживаемый S3.

S3 select, похоже, использует ту же технологию, но я предполагаю, что она больше нацелена на прямое использование приложениями для фильтрации или сегментирования их наборов данных.

person mcfinnigan    schedule 05.03.2018

S3 Select позволяет легко извлекать определенные данные из содержимого объекта с помощью простых выражений SQL. Нет необходимости извлекать весь объект. Это может использоваться с Lambda для создания бессерверных приложений и может быть связано с фреймворками больших данных, такими как Apache Spark и Presto. Может повысить производительность до 400%.

Amazon Athena - это интерактивная служба запросов. Это бессерверно. Нет необходимости загружать данные в Афину. Построен на Presto и использует стандартный SQL. В основном используется для анализа больших данных.

person Phoenix    schedule 01.06.2018

Чтобы дать обзор в соответствии с моим пониманием:

Amazon Athena - это интерактивная служба запросов, которая упрощает анализ данных в Amazon S3 с использованием стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для управления, и вы платите только за запросы, которые выполняете.

Основное преимущество этого на данный момент:

Athena полностью интегрирована с каталогом данных AWS Glue. Вы также можете использовать полностью управляемые возможности Glue ETL для преобразования данных или преобразования их в столбчатые форматы для оптимизации затрат и повышения производительности.

Теперь что касается S3 Select:

  • В настоящее время плата за использование S3 Select во время предварительной версии не взимается, и нет определения цены. Однако вам нужно будет подать заявку по справке

  • В предварительном просмотре S3 Select поддерживает файлы CSV, JSON и Parquet со сжатием GZIP или без него. Во время предварительного просмотра объекты, зашифрованные в состоянии покоя, не поддерживаются.

  • Поскольку S3 Select все еще находится в предварительной версии, у AWS нет внутренних случаев, чтобы проверить, как используется сервис. Однако я смог найти ссылку на блог, который может вас заинтересовать.

На мой взгляд, вы можете просмотреть это видео Twitch, которое может вам очень помочь.

person Kush Vyas    schedule 05.03.2018
comment
Знаете ли вы о какой-либо ссылке, показывающей возможности каждого продукта рядом с некоторыми подробностями. Amazon использует бессмысленные имена для своих услуг (как и многие другие компании) .... Спасибо. - person NoChance; 02.08.2020

В дополнение к ответу @ abc123, S3 Select поддерживает только SELECT

https://docs.aws.amazon.com/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html

Amazon S3 Select и S3 Glacier Select поддерживают только команду SELECT SQL. Для SELECT поддерживаются следующие стандартные предложения ANSI:

person Marcello Romani    schedule 26.11.2020

Amazon Athena: Amazon Athena - это служба запросов, которая упрощает анализ данных, хранящихся в S3, с помощью стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для настройки или управления, платите только за запросы. Он автоматически масштабируется - параллельное выполнение запросов позволяет получать более быстрые результаты даже с большими наборами данных и сложными запросами.

Примеры использования: Athena можно использовать для обработки журналов, выполнения специального анализа и выполнения интерактивных запросов и объединений. он запускает запросы по нескольким путям, которые включают все файлы по этому пути.

S3 Select: S3 Select - это функция S3. Она работает путем извлечения подмножества данных объекта (с использованием простых выражений SQL) вместо всего объекта, размер которого может составлять до 5 терабайт. s3 select запускает запросы к одному объекту за раз в корзине s3.

Вывод: Athena может использоваться для сложных запросов к файлам, спам которых несколько папок в сегменте S3. Выбор S3 может использоваться для простых запросов, основанных на одном объекте.

person anuj patel    schedule 05.04.2021