У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения.
Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть больше вариантов использования, которые невозможны для стандартного HiveQL. Как получить все строки, получить доступ к столбцам и выполнить преобразование.
Предположим, у меня есть два rdd:
val table1 = hiveContext.hql("select * from tem1")
val table2 = hiveContext.hql("select * from tem2")
Я хочу выполнить соединение rdds в столбце с именем «account_id».
В идеале я хочу сделать что-то подобное, используя rdds с помощью искровой оболочки.
select * from tem1 join tem2 on tem1.account_id=tem2.account_id;