Привет, я написал задание mapreduce, которое обычно анализирует файл XML. Я могу разобрать файл XML и правильно сгенерировать всю пару значений ключа. У меня есть 6 разных ключей и соответствующие значения. Итак, я запускаю 6 разных редукторов параллельно.
Теперь проблема, с которой я столкнулся, заключается в том, что редуктор помещает две разные пары ключ-значение в один и тот же файл и оставшиеся 4 значения ключа в отдельные файлы. Короче говоря, из 6 файлов на выходе из редуктора я получаю 4 файла с парой значений с одним ключом и 1 файл с двумя парами ключ-значение и 1 файл без ничего.
Я попытался провести исследование в Google и на различных форумах, и пришел к выводу, что мне нужен разделитель для решения этой проблемы. Я новичок в Hadoop, поэтому может кто-нибудь пролить свет на эту проблему и помочь мне решить ее.
Я работаю над кластером псевдоузлов и использую Java в качестве языка программирования. Я не могу поделиться здесь кодом, но все же попытаюсь кратко описать проблему.
Дайте мне знать, что требуется дополнительная информация, и спасибо заранее.