Мне нужно читать смежные файлы в pySpark. Следующее работает для меня.
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
Как прочитать файлы 8-14?
Мне нужно читать смежные файлы в pySpark. Следующее работает для меня.
from pyspark.sql import SQLContext
file = "events.parquet/exportDay=2015090[1-7]"
df = sqlContext.read.load(file)
Как прочитать файлы 8-14?
Используйте фигурные скобки.
файл = "events.parquet/exportDay=201509{08,09,10,11,12,13,14}"
Вот аналогичный вопрос о переполнении стека: Pyspark выбирает подмножество файлы с помощью regex glob. Они предлагают либо использовать фигурные скобки, либо выполнить несколько операций чтения, а затем объединить объекты (будь то RDD или кадры данных или что-то еще, должен быть какой-то способ).
Я полагаю, что он использует подстановку оболочки.
Сообщение: Как читать несколько текстовых файлов в один СДР?
Кажется, ниже должно работать.
"events.parquet/exportDay=2015090[89],events.parquet/exportDay=2015091[0-4]"