Как напрямую записать потоковый структурированный поток в Hive?

Я хочу добиться чего-то вроде этого:

df.writeStream
.saveAsTable("dbname.tablename")
.format("parquet")
.option("path", "/user/hive/warehouse/abc/")
.option("checkpointLocation", "/checkpoint_path") 
.outputMode("append")
.start() 

Я открыт для предложений. Я знаю, что Kafka Connect может быть одним из вариантов, но как этого добиться с помощью Spark. Возможный обходной путь может быть тем, что я ищу. Заранее спасибо !!


person Naman Agarwal    schedule 24.03.2018    source источник
comment
Не могли бы вы принять ответ?   -  person thebluephantom    schedule 07.01.2019
comment
Это не тот ответ, который я искал. Любое обходное решение должно быть оценено. Но я все равно проголосую за уточнение.   -  person Naman Agarwal    schedule 07.01.2019


Ответы (1)


Spark Structured Streaming не поддерживает прямую запись результата потокового запроса в таблицу Hive. Вы должны писать в пути.

Для 2.4 говорят попробуй foreachBatch, но я не пробовал.

person thebluephantom    schedule 03.01.2019