Я использую
- AWS DMS для извлечения данных из Oracle
- Он приземляется в S3 Raw Bucket.
- Используя AWS Glue, я хочу написать код pyspark БЕЗ использования продукта databricks для объединения данных CDC с начальной загрузкой.
Какие библиотеки мне нужно было бы импортировать специально в контексте искры для создания таблиц Delta?
Я добавил delta-core_2.12-0.7.0.jar в Glue Dependent Path в разделе Конфигурация безопасности, библиотеки скриптов и параметры задания (необязательно). Я получаю сообщение об ошибке ниже ошибки --------
Файл script_2020-11-08-19-29-39.py, строка 54, в fullload_str_metrics_df = spark.read.parquet ('s3: //rawbucket/.../fullload/.../STR_METRICS/LOAD00000001.parquet' ) Файл /mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/pyspark.zip/pyspark/sql/readwriter.py, строка 291, в parquet Файл app_48686_86_0001/2186000_03_03_03/240/8000/_server_64000/count_486_86000/container_1 py4j-0.10.4-src.zip/py4j/java_gateway.py, строка 1133, в файле вызова /mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/pyspark.zip sql / utils.py, строка 63, в деко Файл /mnt/yarn/usercache/root/appcache/application_1604863378634_0002/container_1604863378634_0002_01_000001/py4j-0.10.4-src.zip/py4j/protocol.py, строка 319. protocol.Py4JJavaError: произошла ошибка при вызове o74.parquet.