Я запускаю задание ETL с Hadoop, где мне нужно вывести действительные, преобразованные данные в HBase и внешний индекс для этих данных в MySQL. Моя первоначальная мысль заключалась в том, что я мог бы использовать MultipleOutputFormats для экспорта преобразованных данных с помощью HFileOutputFormat (ключ — это текст, а значение — ProtobufWritable) и индекс для TextOutputFormat (ключ — это текст, а значение — текст).
Количество входных записей для задания среднего размера (мне понадобится возможность запуска многих одновременно) составляет около 700 миллионов.
Мне интересно, а) кажется ли это разумным подходом с точки зрения эффективности и сложности, и Б) как это сделать с помощью API дистрибутива CDH3, если это возможно.