Как эффективно программно копировать файлы из HDFS в S3

Моя работа в Hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3.

Может ли кто-нибудь указать мне на любой java API, который его обрабатывает.

Спасибо

amazon-s3 hadoop hdfs

RandomQuestion 14.09.2010 источник

comment

Другим подходом может быть использование S3 вместо HDFS с Hadoop, вы можете найти все достоинства и недостатки этого подхода ‹a href=technology-mania.com/2012/05/› И если вы считаете, что было бы целесообразно настроить S3 для кластера Hadoop вы можете ‹a href=technology-mania.com/2011/05/› см. здесь ‹/a› - user1855490 07.12.2012

Ответы (1)

arrow_upward
9
arrow_downward

«Поддержка блочной файловой системы S3 была добавлена в инструмент ${HADOOP_HOME}/bin/hadoop distcp в Hadoop 0.11.0 (см. HADOOP-862). Инструмент distcp настраивает задание MapReduce для запуска копии. Используя distcp, кластер из многих членов может быстро копировать большое количество данных.Количество задач карты рассчитывается путем подсчета количества файлов в источнике: т. е. каждая задача карты отвечает за копирование одного файла.Источник и цель могут относиться к разным типам файловых систем. Например, источник может ссылаться на локальную файловую систему или hdfs с S3 в качестве цели.

Ознакомьтесь с Запуском массовых копий в S3 и из него здесь http://wiki.apache.org/hadoop/AmazonS3< /а>

Joe Stein 16.09.2010

comment

Инструмент distcp отлично работает для копирования файлов между hdfs и s3, пока вы не достигнете предела PUT в 5 ГБ на S3. Hadoop 2.4 исправляет это, но если у вас более ранняя версия, имейте в виду. - Steve Armstrong; 08.04.2015

Как эффективно программно копировать файлы из HDFS в S3

Ответы (1)

Похожие вопросы