Как эффективно программно копировать файлы из HDFS в S3

Моя работа в Hadoop генерирует большое количество файлов в HDFS, и я хочу написать отдельный поток, который будет копировать эти файлы из HDFS в S3.

Может ли кто-нибудь указать мне на любой java API, который его обрабатывает.

Спасибо


person RandomQuestion    schedule 14.09.2010    source источник
comment
Другим подходом может быть использование S3 вместо HDFS с Hadoop, вы можете найти все достоинства и недостатки этого подхода ‹a href=technology-mania.com/2012/05/› И если вы считаете, что было бы целесообразно настроить S3 для кластера Hadoop вы можете ‹a href=technology-mania.com/2011/05/› см. здесь ‹/a›   -  person user1855490    schedule 07.12.2012


Ответы (1)


«Поддержка блочной файловой системы S3 была добавлена ​​в инструмент ${HADOOP_HOME}/bin/hadoop distcp в Hadoop 0.11.0 (см. HADOOP-862). Инструмент distcp настраивает задание MapReduce для запуска копии. Используя distcp, кластер из многих членов может быстро копировать большое количество данных.Количество задач карты рассчитывается путем подсчета количества файлов в источнике: т. е. каждая задача карты отвечает за копирование одного файла.Источник и цель могут относиться к разным типам файловых систем. Например, источник может ссылаться на локальную файловую систему или hdfs с S3 в качестве цели.

Ознакомьтесь с Запуском массовых копий в S3 и из него здесь http://wiki.apache.org/hadoop/AmazonS3< /а>

person Joe Stein    schedule 16.09.2010