Добавление пакетов Spark в PyCharm IDE

Я настроил свой PyCharm для связи с моей локальной установкой искры в соответствии с в этой ссылке

from pyspark import SparkContext, SQLContext, SparkConf
from operator import add
conf = SparkConf()
conf.setMaster("spark://localhost:7077")
conf.setAppName("Test")
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
df = sqlContext.createDataFrame([(2012, 8, "Batman", 9.8), (2012, 8, "Hero", 8.7), (2012, 7, "Robot", 5.5), (2011, 7, "Git", 2.0)],["year", "month", "title", "rating"])
df.write.mode('overwrite').format("com.databricks.spark.avro").save("file:///Users/abhattac/PycharmProjects/WordCount/users")

Для этого требуется, чтобы файл avro jar от Databrick был отправлен на рабочий узел. Я могу сделать это с помощью spark-submit из оболочки следующим образом:

/usr/local/Cellar/apache-spark/1.6.1/bin/pyspark AvroFile.py --packages com.databricks:spark-avro_2.10:2.0.1

Я не мог узнать, как предоставить параметр --packages, когда я запускаю его из PyCharm IDE. Любая помощь будет оценена.


person user3138594    schedule 16.03.2016    source источник


Ответы (1)


Вы можете использовать переменную среды Python PYSPARK_SUBMIT_ARGS, либо передав ее с помощью раздела переменных среды конфигурации запуска PyCharm (то же место, где вы установили SPARK_HOME)

введите здесь описание изображения

или используя os.environ непосредственно в коде, как показано на загружать внешние библиотеки внутри кода pyspark

person Community    schedule 16.03.2016
comment
Спасибо за ответ. Я пробовал следующее: os.environ['PYSPARK_SUBMIT_ARGS'] = '--packages com.databricks:spark-avro_2.10:2.0.1' Это не сработало и продолжало выдавать java.lang.ClassNotFoundException: не удалось найти данные источник: com.databricks.spark.avro Затем я включил эти две строки в spark-defaults.conf spark.driver.extraClassPath /Users/abhattac/PycharmProjects/WordCount/spark-avro_2.10-2.0.1.jar spark.executor. extraClassPath /Users/abhattac/PycharmProjects/WordCount/spark-avro_2.10-2.0.1.jar С этими строками я мог заставить его работать. - person user3138594; 17.03.2016
comment
Исходная ссылка на stackoverflow: stackoverflow.com/questions /31464845/ - person user3138594; 17.03.2016
comment
Отсутствует pyspark-shell? - person zero323; 17.03.2016
comment
@ user3138594 - Как указать путь в Windows? если мне нужно добавить несколько банок, то как их добавить? - person Induraj PR; 03.03.2021