Можно ли прочитать файл ORC в Spark Data Frame в sparklyr?

Я знаю, что у sparklyr есть следующие методы чтения файлов:

  • spark_read_csv
  • spark_read_parquet
  • spark_read_json

Как насчет чтения файлов orc? Поддерживается ли она еще этой библиотекой?

Я знаю, что могу использовать read.orc в SparkR или это решение, но я хотел бы сохранить свой код в спарклир.


person mrjoseph    schedule 17.05.2017    source источник


Ответы (1)


Вы можете использовать низкоуровневый API Spark так же, как я описал в своем ответе на Перенос данных из базы данных в Spark с помощью sparklyr:

library(dplyr)
library(sparklyr)

sc <- spark_connect(...)

spark_session(sc) %>% 
  invoke("read") %>% 
  invoke("format", "orc") %>%
  invoke("load", path) %>% 
  invoke("createOrReplaceTempView", name)

df <- tbl(sc, name)

где name — произвольное имя, используемое для идентификации таблицы

В текущей версии sparklyr вы сможете заменить вышеуказанное на spark_read_source:

spark_read_source(sc, name, source = "orc", options = list(path = path))
person zero323    schedule 19.05.2017