Я использую bigdata в своем проекте, чтобы сократить время работы, которое требуется моему ETL для выполнения.
Я хотел бы понять, интенсивно ли используется CloudEra Impala Framework в памяти, поскольку он возвращает результаты очень быстро и намного быстрее, чем hive и Pig.
У меня есть набор данных из 20-30 миллионов записей, и я выполняю операции запроса импала, такие как группировка и объединение
Итак, вы предлагаете использовать импалу, как это быстрее, или использовать улей. Все мое намерение состоит в том, чтобы сократить время работы моего ETL, который сейчас использует Oracle.
Пожалуйста, посоветуйте относительно использования памяти и рекомендуется ли это ...
Кроме того, нам очень помогут ссылки, по которым мы узнаем, как работает Impala и как она использует свою память.
Спасибо.!!!!!