Перенести данные из локальной среды в AWS redshift

Мне нужно переместить данные из локальной среды в AWS redshift (region1). какой самый быстрый способ?

1) используйте AWS Snowball для локального перехода на s3 (region1), а затем используйте команду Redshift SQL COPY для копирования данных из s3 в красное смещение.

2) используйте AWS Datapipeline (обратите внимание, что в регионе 1 еще нет AWS Datapipeline. Поэтому я настрою Datapipeline в регионе 2, который ближе всего к региону 1), чтобы переместить локальные данные в s3 (регион 1) и другой AWS DataPipeline (регион 2) для копирования. данные из s3 (регион 1) в красное смещение (регион 1) с использованием предоставленного AWS шаблона (этот шаблон использует RedshiftCopyActivity для копирования данных из s3 в красное смещение)?

какое из вышеперечисленных решений быстрее? или есть другое решение? Кроме того, будет ли RedshiftCopyActivity быстрее, чем запуск команды COPY от redshift напрямую?

Обратите внимание, что это однократное перемещение, поэтому мне не нужна функция расписания AWS datapipeline.

Ссылка на AWS Datapipeline: AWS Data Pipeline. В нем говорилось: AWS Data Pipeline - это веб-сервис, который помогает надежно обрабатывать и перемещать данные между различными сервисами вычислений и хранения AWS, а также с локальными источниками данных ...

amazon-web-services amazon-redshift amazon-data-pipeline

user389955 17.01.2019 источник

comment

сколько ТБ данных? Как вы думаете, почему конвейер данных aws, а не простая загрузка (aws cli) в s3? Я не знаю, насколько хороша служба конвейера данных в этой области. вы можете указать на веб-страницу, показывающую это? - Jon Scott 17.01.2019

comment

Джон Скотт: Я добавил ссылку. в нем говорилось: AWS Data Pipeline - это веб-сервис, который помогает надежно обрабатывать и перемещать данные между различными сервисами вычислений и хранения AWS, а также локальными источниками данных. - user389955 17.01.2019

comment

определенно выберите вариант загрузки данных в s3 и не используйте конвейер данных. оттуда у вас есть возможность использовать glue / athena / reddshift load / emr и т. д., вы можете сжать свои данные перед загрузкой и, если это возможно, организовать их эффективным и действенным способом. (вам может понадобиться профессиональная помощь с этим). вы можете либо загрузить свои данные вручную через Интернет (возможно, для сжатого 1 ТБ или около того), либо использовать снежный ком, если у вас их значительно больше. - Jon Scott 18.01.2019

comment

Джон Скотт: Спасибо за ответ. Похоже, AWS DataPipeline подходит только для запланированных движений, таких как ежедневная синхронизация. внутри он вызывает s3 cp или redshift LOAD так же, как то, что я могу сделать вручную. так что движение не будет ускоряться, просто сделайте движение конвейерным. - user389955 18.01.2019

comment

Моя проблема с конвейером данных заключается в том, что он немного нестабилен - в отличие от большинства продуктов aws. Я использовал его с парой клиентов, и через некоторое время мне пришлось прервать использование других методов. он также может быть намного дороже, если вы постоянно используете его с большим количеством таблиц. - Jon Scott 19.01.2019

comment

Джон Скотт: Спасибо. Приятно знать, что. - user389955 19.01.2019

Ответы (1)

arrow_upward
1
arrow_downward

Все сводится к пропускной способности сети по сравнению с количеством данных.

Данные необходимо переместить из текущего локального местоположения в Amazon S3.

Это можно сделать с помощью:

Сетевая копия
AWS Snowball

Вы можете использовать сетевой сетевой калькулятор, чтобы рассчитать, сколько времени потребуется на копирование через сетевое соединение.

Затем сравните это с использованием AWS Snowball для копирования данных.

Выберите то, что дешевле / проще / быстрее.

Когда данные будут помещены в Amazon S3, используйте команду Amazon Redshift COPY для их загрузки.

Если данные добавляются постоянно, вам нужно найти способ отправлять непрерывные обновления в Redshift. Это может быть проще с помощью сетевого копирования.

Нет никакой пользы от использования Data Pipeline.

John Rotenstein 17.01.2019

comment

Спасибо, Джон Ротенштейн. Похоже, никому из вас не нравится конвейер данных AWS, потому что он для небольшого размера. Я могу использовать снежок или самостоятельно настроить систему - user389955; 18.01.2019

Перенести данные из локальной среды в AWS redshift

Ответы (1)

Похожие вопросы