Перенести данные из локальной среды в AWS redshift

Мне нужно переместить данные из локальной среды в AWS redshift (region1). какой самый быстрый способ?

1) используйте AWS Snowball для локального перехода на s3 (region1), а затем используйте команду Redshift SQL COPY для копирования данных из s3 в красное смещение.

2) используйте AWS Datapipeline (обратите внимание, что в регионе 1 еще нет AWS Datapipeline. Поэтому я настрою Datapipeline в регионе 2, который ближе всего к региону 1), чтобы переместить локальные данные в s3 (регион 1) и другой AWS DataPipeline (регион 2) для копирования. данные из s3 (регион 1) в красное смещение (регион 1) с использованием предоставленного AWS шаблона (этот шаблон использует RedshiftCopyActivity для копирования данных из s3 в красное смещение)?

какое из вышеперечисленных решений быстрее? или есть другое решение? Кроме того, будет ли RedshiftCopyActivity быстрее, чем запуск команды COPY от redshift напрямую?

Обратите внимание, что это однократное перемещение, поэтому мне не нужна функция расписания AWS datapipeline.

Ссылка на AWS Datapipeline: AWS Data Pipeline. В нем говорилось: AWS Data Pipeline - это веб-сервис, который помогает надежно обрабатывать и перемещать данные между различными сервисами вычислений и хранения AWS, а также с локальными источниками данных ...


person user389955    schedule 17.01.2019    source источник
comment
сколько ТБ данных? Как вы думаете, почему конвейер данных aws, а не простая загрузка (aws cli) в s3? Я не знаю, насколько хороша служба конвейера данных в этой области. вы можете указать на веб-страницу, показывающую это?   -  person Jon Scott    schedule 17.01.2019
comment
Джон Скотт: Я добавил ссылку. в нем говорилось: AWS Data Pipeline - это веб-сервис, который помогает надежно обрабатывать и перемещать данные между различными сервисами вычислений и хранения AWS, а также локальными источниками данных.   -  person user389955    schedule 17.01.2019
comment
определенно выберите вариант загрузки данных в s3 и не используйте конвейер данных. оттуда у вас есть возможность использовать glue / athena / reddshift load / emr и т. д., вы можете сжать свои данные перед загрузкой и, если это возможно, организовать их эффективным и действенным способом. (вам может понадобиться профессиональная помощь с этим). вы можете либо загрузить свои данные вручную через Интернет (возможно, для сжатого 1 ТБ или около того), либо использовать снежный ком, если у вас их значительно больше.   -  person Jon Scott    schedule 18.01.2019
comment
Джон Скотт: Спасибо за ответ. Похоже, AWS DataPipeline подходит только для запланированных движений, таких как ежедневная синхронизация. внутри он вызывает s3 cp или redshift LOAD так же, как то, что я могу сделать вручную. так что движение не будет ускоряться, просто сделайте движение конвейерным.   -  person user389955    schedule 18.01.2019
comment
Моя проблема с конвейером данных заключается в том, что он немного нестабилен - в отличие от большинства продуктов aws. Я использовал его с парой клиентов, и через некоторое время мне пришлось прервать использование других методов. он также может быть намного дороже, если вы постоянно используете его с большим количеством таблиц.   -  person Jon Scott    schedule 19.01.2019
comment
Джон Скотт: Спасибо. Приятно знать, что.   -  person user389955    schedule 19.01.2019


Ответы (1)


Все сводится к пропускной способности сети по сравнению с количеством данных.

Данные необходимо переместить из текущего локального местоположения в Amazon S3.

Это можно сделать с помощью:

  • Сетевая копия
  • AWS Snowball

Вы можете использовать сетевой сетевой калькулятор, чтобы рассчитать, сколько времени потребуется на копирование через сетевое соединение.

Затем сравните это с использованием AWS Snowball для копирования данных.

Выберите то, что дешевле / проще / быстрее.

Когда данные будут помещены в Amazon S3, используйте команду Amazon Redshift COPY для их загрузки.

Если данные добавляются постоянно, вам нужно найти способ отправлять непрерывные обновления в Redshift. Это может быть проще с помощью сетевого копирования.

Нет никакой пользы от использования Data Pipeline.

person John Rotenstein    schedule 17.01.2019
comment
Спасибо, Джон Ротенштейн. Похоже, никому из вас не нравится конвейер данных AWS, потому что он для небольшого размера. Я могу использовать снежок или самостоятельно настроить систему - person user389955; 18.01.2019