У меня есть 100 миллионов записей, которые нужно вставить в таблицу HBase (PHOENIX) в результате задания Spark. Я хотел бы знать, конвертирую ли я его в Dataframe и сохраняю, будет ли он выполнять массовую загрузку (или) это неэффективный способ записи данных в таблицу Phoenix HBase.
PHOENIX SPARK — DataFrame для массовой загрузки
Ответы (1)
От: Джош Махонин
Дата: Среда, 18 мая 2016 г., 22:29
Тема: Re: PHOENIX SPARK — DataFrame для массовой загрузки
Кому: [email protected]
Hi,
Интеграция со Spark использует инфраструктуру Phoenix MapReduce, которая под капотом преобразует их в UPSERT, распределенные по нескольким рабочим процессам.
Вы должны попробовать оба метода и посмотреть, какой из них лучше всего подходит для вашего случая использования. Что бы это ни стоило, мы регулярно выполняем операции загрузки/сохранения, используя интеграцию Spark для этих размеров данных.
person
Mohan
schedule
23.05.2016