Как читать файлы параллельно в DataBricks?

Может кто подскажет, как параллельно читать файлы? Я пробую что-то вроде этого:

def processFile(path):
  df = spark.read.json(path)
  return df.count()

paths = ["...", "..."]

distPaths = sc.parallelize(paths)
counts = distPaths.map(processFile).collect()
print(counts)

Это не удается со следующей ошибкой:

PicklingError: не удалось сериализовать объект: исключение: похоже, вы пытаетесь ссылаться на SparkContext из широковещательной переменной, действия или преобразования. SparkContext можно использовать только в драйвере, а не в коде, который он запускает на рабочих процессах. Для получения дополнительной информации см. SPARK-5063.

Есть ли другой способ оптимизировать это?

Marat Faskhiev 19.03.2020 источник

comment

почему бы не использовать многопоточность? - smx0 19.03.2020

comment

@ smx0 Не могли бы вы указать мне какие-нибудь документы? - Marat Faskhiev 19.03.2020

comment

Возможно, вы захотите проверить stackoverflow.com/questions/19322079/ - smx0 19.03.2020

comment

Отвечает ли это на ваш вопрос? Как выполнять независимые преобразования параллельно с помощью PySpark? - user10938362 19.03.2020

comment

@ user10938362 Мне очень жаль. Я немного новичок в этом. Похоже, что в этих примерах код будет вызываться на том же компьютере. Есть ли способ распределить вычисления между машинами в кластере? - Marat Faskhiev 19.03.2020

comment

@mazaneicha Спасибо. Не могли бы вы добавить ответ? Отмечу как ответ. В моем случае этого было достаточно. Я сгруппировал исходники по типу и перешел на spark.read.json - Marat Faskhiev 20.03.2020

Ответы (1)

arrow_upward
3
arrow_downward

В вашем конкретном случае вы можете просто передать весь массив paths в DataFrameReader:

df = spark.read.json(paths)

... и чтение его файловых элементов будет распараллелено Spark.

mazaneicha 20.03.2020

Как читать файлы параллельно в DataBricks?

Ответы (1)

Похожие вопросы