Cloudera Impala - это фреймворк, потребляющий память?

Я использую bigdata в своем проекте, чтобы сократить время работы, которое требуется моему ETL для выполнения.

Я хотел бы понять, интенсивно ли используется CloudEra Impala Framework в памяти, поскольку он возвращает результаты очень быстро и намного быстрее, чем hive и Pig.

У меня есть набор данных из 20-30 миллионов записей, и я выполняю операции запроса импала, такие как группировка и объединение

Итак, вы предлагаете использовать импалу, как это быстрее, или использовать улей. Все мое намерение состоит в том, чтобы сократить время работы моего ETL, который сейчас использует Oracle.

Пожалуйста, посоветуйте относительно использования памяти и рекомендуется ли это ...

Кроме того, нам очень помогут ссылки, по которым мы узнаем, как работает Impala и как она использует свою память.

Спасибо.!!!!!


person Argho Chatterjee    schedule 13.01.2015    source источник


Ответы (1)


Impala определенно требует много памяти и намного быстрее, чем Hive and Pig. Для 30 миллионов записей Hive будет работать быстрее, чем Oracle, который вы используете. Если у вас достаточно ресурсов памяти, оборудования и если у вас нет других процессов, поглощающих память, Impala - лучший инструмент для использования.

http://www.cloudera.com/content/cloudera/en/documentation/cloudera-impala/latest/topics/impala_cluster_sizing.html

В этой документации объясняются требования к памяти для Impala.

person Bharat Gamini    schedule 13.01.2015