PHOENIX SPARK — DataFrame для массовой загрузки

У меня есть 100 миллионов записей, которые нужно вставить в таблицу HBase (PHOENIX) в результате задания Spark. Я хотел бы знать, конвертирую ли я его в Dataframe и сохраняю, будет ли он выполнять массовую загрузку (или) это неэффективный способ записи данных в таблицу Phoenix HBase.

apache-spark dataframe phoenix

Mohan 18.05.2016 источник

Ответы (1)

arrow_upward
2
arrow_downward

От: Джош Махонин

Дата: Среда, 18 мая 2016 г., 22:29

Тема: Re: PHOENIX SPARK — DataFrame для массовой загрузки

Кому: [email protected]

Hi,

Интеграция со Spark использует инфраструктуру Phoenix MapReduce, которая под капотом преобразует их в UPSERT, распределенные по нескольким рабочим процессам.

Вы должны попробовать оба метода и посмотреть, какой из них лучше всего подходит для вашего случая использования. Что бы это ни стоило, мы регулярно выполняем операции загрузки/сохранения, используя интеграцию Spark для этих размеров данных.

Mohan 23.05.2016

PHOENIX SPARK — DataFrame для массовой загрузки

Ответы (1)

Похожие вопросы