Вот деталь:
Входные файлы находятся в пути hdfs /user/rd/input
, а путь вывода hdfs - /user/rd/output
. Во входном пути есть 20 000 файлов от part-00000 до part-19999, каждый файл имеет размер около 64 МБ. Я хочу написать задание потоковой передачи hadoop, чтобы объединить эти 20 000 файлов в 10 000 файлов.
Есть ли способ объединить эти 20000 файлов с 10000 файлов с помощью задания потоковой передачи hadoop? Или, другими словами, есть ли способ контролировать количество выходных файлов потоковой передачи hadoop?
Заранее спасибо!