Как напрямую записать потоковый структурированный поток в Hive?

Я хочу добиться чего-то вроде этого:

df.writeStream
.saveAsTable("dbname.tablename")
.format("parquet")
.option("path", "/user/hive/warehouse/abc/")
.option("checkpointLocation", "/checkpoint_path") 
.outputMode("append")
.start()

Я открыт для предложений. Я знаю, что Kafka Connect может быть одним из вариантов, но как этого добиться с помощью Spark. Возможный обходной путь может быть тем, что я ищу. Заранее спасибо !!

apache-spark spark-structured-streaming hive

Naman Agarwal 24.03.2018 источник

comment

Не могли бы вы принять ответ? - thebluephantom 07.01.2019

comment

Это не тот ответ, который я искал. Любое обходное решение должно быть оценено. Но я все равно проголосую за уточнение. - Naman Agarwal 07.01.2019

Ответы (1)

arrow_upward
2
arrow_downward

Spark Structured Streaming не поддерживает прямую запись результата потокового запроса в таблицу Hive. Вы должны писать в пути.

Для 2.4 говорят попробуй foreachBatch, но я не пробовал.

thebluephantom 03.01.2019

Как напрямую записать потоковый структурированный поток в Hive?

Ответы (1)

Похожие вопросы