Как начать фазу карты, пока работает фаза уменьшения

У меня есть этот сценарий. Работа А и Работа Б. Есть ли возможность начать фазу сопоставления JobB с использованием данных, предоставленных фазой сокращения JobA, пока это все еще работает?

Спасибо!


person psabbate    schedule 17.08.2012    source источник


Ответы (1)


Единственное, что приходит мне в голову, это иметь поток (запущенный в вашем классе драйверов), который постоянно проверяет выходной каталог JobA. Когда конкретный (набор) файлов part-r-xxxx был создан и полностью записан, вы можете запустить JobB, имея в качестве входных данных этот конкретный (набор) файл(ов) part-r-xxxx.

Единственная проблема, которую я могу определить сейчас, связана с проверкой того, был ли полностью записан файл part-r-xxxx.

person Razvan    schedule 18.08.2012
comment
Вы не увидите файл part-r-, пока он не будет полностью записан конкретным редюсером. Таким образом, вы можете начать обрабатывать файлы part-r по мере их появления, и вы будете знать, что они завершены. - person Binary Nerd; 08.01.2013