Я пытаюсь запустить задание на Elastic MapReduce (EMR) с пользовательским банком. Я пытаюсь обработать около 1000 файлов в одном каталоге. Когда я отправляю свою работу с параметром s3n://bucketname/compressed/*.xml.gz
, я получаю сообщение об ошибке "совпало 0 файлов". Если я передаю только абсолютный путь к файлу (например, s3n://bucketname/compressed/00001.xml.gz
), он работает нормально, но обрабатывается только один файл. Я попытался использовать имя каталога (s3n://bucketname/compressed/
), надеясь, что файлы внутри будут обработаны, но это просто передает каталог заданию.
В то же время у меня есть небольшая локальная установка Hadoop. В этом случае, когда я передаю свою работу с подстановочными знаками (/path/to/dir/on/hdfs/*.xml.gz
), она работает нормально, и все 1000 файлов перечислены правильно.
Как заставить EMR отображать все мои файлы?
compressed
. Как только я удалил пустой файл, программа заработала. - person Shashank Agarwal   schedule 21.07.2011