Чтение диапазона файлов в pySpark

Мне нужно читать смежные файлы в pySpark. Следующее работает для меня.

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

Как прочитать файлы 8-14?

deltap 09.06.2016 источник

Ответы (2)

arrow_upward
3
arrow_downward

Используйте фигурные скобки.

файл = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

Вот аналогичный вопрос о переполнении стека: Pyspark выбирает подмножество файлы с помощью regex glob. Они предлагают либо использовать фигурные скобки, либо выполнить несколько операций чтения, а затем объединить объекты (будь то RDD или кадры данных или что-то еще, должен быть какой-то способ).

kathleen 09.06.2016

comment

Хотя теоретически это может ответить на вопрос, было бы предпочтительнее включить сюда основные части ответа и предоставить ссылку для справки. . - Enamul Hassan; 09.06.2016

arrow_upward
2
arrow_downward

Я полагаю, что он использует подстановку оболочки.

Сообщение: Как читать несколько текстовых файлов в один СДР?

Кажется, ниже должно работать.

"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"

Barry Loper 09.06.2016

Чтение диапазона файлов в pySpark

Ответы (2)

Похожие вопросы