PHOENIX SPARK — DataFrame для массовой загрузки

У меня есть 100 миллионов записей, которые нужно вставить в таблицу HBase (PHOENIX) в результате задания Spark. Я хотел бы знать, конвертирую ли я его в Dataframe и сохраняю, будет ли он выполнять массовую загрузку (или) это неэффективный способ записи данных в таблицу Phoenix HBase.


person Mohan    schedule 18.05.2016    source источник


Ответы (1)


От: Джош Махонин

Дата: Среда, 18 мая 2016 г., 22:29

Тема: Re: PHOENIX SPARK — DataFrame для массовой загрузки

Кому: [email protected]

Hi,

Интеграция со Spark использует инфраструктуру Phoenix MapReduce, которая под капотом преобразует их в UPSERT, распределенные по нескольким рабочим процессам.

Вы должны попробовать оба метода и посмотреть, какой из них лучше всего подходит для вашего случая использования. Что бы это ни стоило, мы регулярно выполняем операции загрузки/сохранения, используя интеграцию Spark для этих размеров данных.

person Mohan    schedule 23.05.2016