У меня есть данные, расположенные в структуре s3n://bucket/{date}/{file}.gz с> 100 папками. Как настроить потоковое задание и использовать их все в качестве входных данных? Указание s3n://bucket/ не помогло, поскольку узлы — это папки.
AWS Elastic MapReduce Streaming. Использовать данные из вложенных папок в качестве входных данных
Ответы (1)
Укажите s3n://bucket/*/ в качестве входных данных, и все должно работать нормально.
person
Suman
schedule
09.09.2013