Чтение диапазона файлов в pySpark

Мне нужно читать смежные файлы в pySpark. Следующее работает для меня.

from pyspark.sql import SQLContext    
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)

Как прочитать файлы 8-14?


person deltap    schedule 09.06.2016    source источник


Ответы (2)


Используйте фигурные скобки.

файл = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"

Вот аналогичный вопрос о переполнении стека: Pyspark выбирает подмножество файлы с помощью regex glob. Они предлагают либо использовать фигурные скобки, либо выполнить несколько операций чтения, а затем объединить объекты (будь то RDD или кадры данных или что-то еще, должен быть какой-то способ).

person kathleen    schedule 09.06.2016
comment
Хотя теоретически это может ответить на вопрос, было бы предпочтительнее включить сюда основные части ответа и предоставить ссылку для справки. . - person Enamul Hassan; 09.06.2016

Я полагаю, что он использует подстановку оболочки.

Сообщение: Как читать несколько текстовых файлов в один СДР?

Кажется, ниже должно работать.

"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"

person Barry Loper    schedule 09.06.2016