я очень запутался в MapReduce Framework. Я сбиваюсь с толку, читая об этом из разных источников. Кстати, это моя идея MapReduce Job
1. Map()-->emit <key,value>
2. Partitioner (OPTIONAL) --> divide
intermediate output from mapper and assign them to different
reducers
3. Shuffle phase used to make: <key,listofvalues>
4. Combiner, component used like a minireducer wich perform some
operations on datas and then pass those data to the reducer.
Combiner is on local not HDFS, saving space and time.
5. Reducer, get the data from the combiner, perform further
operation(probably the same as the combiner) then release the
output.
6. We will have n outputs parts, where n is the number
of reducers
Это в принципе правильно? Я имею в виду, что я нашел некоторые источники, в которых говорится, что объединитель - это фаза перемешивания, и он в основном группирует каждую запись по ключу ...