Я пытаюсь понять, в чем разница между сервисом aws athena и недавно выпущенным s3 select (все еще в предварительной версии). И чем разные варианты использования для них обоих? Кажется, оба помогают в выборе частичных данных из s3.
В чем разница между s3 select и athena
Ответы (7)
Также похоже, что нам не хватает одной важной вещи:
S3 Select работает только с одним объектом, в то время как Athena запускает запросы по нескольким путям, которые будут включать все файлы по этому пути.
Вы можете рассматривать AWS S3 Select как экономичную оптимизацию хранилища, которая позволяет извлекать данные, соответствующие предикату в S3 и ледниковой фильтрации, известной как push down.
AWS Athena - это полностью управляемый аналитический сервис, который позволяет выполнять произвольные запросы, совместимые с ANSI SQL, - группировать по, имеющим, оконным и географическим функциям, SQL DDL и DML.
Athena (судя по тому немногому, что я использовал) больше предназначена как инструмент для бизнес-отчетности или анализа, поддерживаемый S3.
S3 select, похоже, использует ту же технологию, но я предполагаю, что она больше нацелена на прямое использование приложениями для фильтрации или сегментирования их наборов данных.
S3 Select позволяет легко извлекать определенные данные из содержимого объекта с помощью простых выражений SQL. Нет необходимости извлекать весь объект. Это может использоваться с Lambda для создания бессерверных приложений и может быть связано с фреймворками больших данных, такими как Apache Spark и Presto. Может повысить производительность до 400%.
Amazon Athena - это интерактивная служба запросов. Это бессерверно. Нет необходимости загружать данные в Афину. Построен на Presto и использует стандартный SQL. В основном используется для анализа больших данных.
Чтобы дать обзор в соответствии с моим пониманием:
Amazon Athena - это интерактивная служба запросов, которая упрощает анализ данных в Amazon S3 с использованием стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для управления, и вы платите только за запросы, которые выполняете.
Основное преимущество этого на данный момент:
Athena полностью интегрирована с каталогом данных AWS Glue. Вы также можете использовать полностью управляемые возможности Glue ETL для преобразования данных или преобразования их в столбчатые форматы для оптимизации затрат и повышения производительности.
Теперь что касается S3 Select:
В настоящее время плата за использование S3 Select во время предварительной версии не взимается, и нет определения цены. Однако вам нужно будет подать заявку по справке
В предварительном просмотре S3 Select поддерживает файлы CSV, JSON и Parquet со сжатием GZIP или без него. Во время предварительного просмотра объекты, зашифрованные в состоянии покоя, не поддерживаются.
Поскольку S3 Select все еще находится в предварительной версии, у AWS нет внутренних случаев, чтобы проверить, как используется сервис. Однако я смог найти ссылку на блог, который может вас заинтересовать.
На мой взгляд, вы можете просмотреть это видео Twitch, которое может вам очень помочь.
В дополнение к ответу @ abc123, S3 Select поддерживает только SELECT
https://docs.aws.amazon.com/AmazonS3/latest/dev/s3-glacier-select-sql-reference-select.html
Amazon S3 Select и S3 Glacier Select поддерживают только команду SELECT SQL. Для SELECT поддерживаются следующие стандартные предложения ANSI:
Amazon Athena: Amazon Athena - это служба запросов, которая упрощает анализ данных, хранящихся в S3, с помощью стандартного SQL. Athena не имеет сервера, поэтому нет инфраструктуры для настройки или управления, платите только за запросы. Он автоматически масштабируется - параллельное выполнение запросов позволяет получать более быстрые результаты даже с большими наборами данных и сложными запросами.
Примеры использования: Athena можно использовать для обработки журналов, выполнения специального анализа и выполнения интерактивных запросов и объединений. он запускает запросы по нескольким путям, которые включают все файлы по этому пути.
S3 Select: S3 Select - это функция S3. Она работает путем извлечения подмножества данных объекта (с использованием простых выражений SQL) вместо всего объекта, размер которого может составлять до 5 терабайт. s3 select запускает запросы к одному объекту за раз в корзине s3.
Вывод: Athena может использоваться для сложных запросов к файлам, спам которых несколько папок в сегменте S3. Выбор S3 может использоваться для простых запросов, основанных на одном объекте.