AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных

У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.

hadoop-streaming elastic-map-reduce

varela 16.01.2013 источник

Ответы (1)

arrow_upward
0
arrow_downward

Укажите s3n://bucket/*/ в качестве входных данных, и все должно работать нормально.

Suman 09.09.2013

AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных

Ответы (1)

Похожие вопросы