Я хочу иметь возможность выполнять стандартное сравнение двух больших файлов. У меня есть кое-что, что будет работать, но это не так быстро, как diff в командной строке.
A = load 'A' as (line);
B = load 'B' as (line);
JOINED = join A by line full outer, B by line;
DIFF = FILTER JOINED by A::line is null or B::line is null;
DIFF2 = FOREACH DIFF GENERATE (A::line is null?B::line : A::line), (A::line is null?'REMOVED':'ADDED');
STORE DIFF2 into 'diff';
У кого-нибудь есть лучшие способы сделать это?