Вопросы по теме 'delta-lake'

Как удалить старые версии таблиц в Delta Lake
Как я понимаю из документации, delta lake позволяет откатиться или, как говорится, «путешествие во времени» к какой-то конкретной версии таблицы. Но как я могу убедиться, что удаление данных действительно приведет к их удалению без создания новой...
1229 просмотров
schedule 02.01.2024

Как вывести список всех дельта-таблиц в Databricks Azure?
Я сохранил один фрейм данных в моем дельта-озере, ниже приведена команда: df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/") Также я могу загрузить и увидеть дельта-озеро / пользовательские...
1850 просмотров

Невозможно читать из s3 с помощью Spark при использовании 2.8.0 hadoop aws jar и не может записывать как дельта-таблицу в s3 при использовании hadoop aws 2.7.3
Я не могу получить доступ к s3 из искры, когда использую hadoop aws jar 2.8.0. В основном я хочу создать (паркетный) файл из s3 и записать его как дельта-таблицу в s3. //Spark shell command spark-shell --packages...
235 просмотров

Delta Lake: исключение File Not Found
Я использую Delta Lake для выполнения операции слияния, для которой я пытаюсь преобразовать свои файлы Parquet в формат дельты, которые со временем разбиваются на разделы: val source = spark.read.parquet("s3a://data-lake/source/") source...
464 просмотров
schedule 28.11.2022

Процесс курирования с библиотеками Delta Lake (без Databricks)
Я использую AWS DMS для извлечения данных из Oracle Он приземляется в S3 Raw Bucket. Используя AWS Glue, я хочу написать код pyspark БЕЗ использования продукта databricks для объединения данных CDC с начальной загрузкой. Какие библиотеки...
119 просмотров
schedule 01.07.2022

Единый SparkContext для группы пользователей JupyterHub в режиме кластера
Я создаю платформу обработки данных для своей организации (пока что в качестве POC), которая будет использоваться только внутри компании максимум 20 участниками. Идея состоит в том, чтобы использовать: Spark (в Kubernetes) для вычислений Delta...
27 просмотров

Установите библиотеки Delta Lake на сервер без доступа к Интернету.
У меня есть сервер без доступа в Интернет, на котором я хотел бы использовать Delta Lake. Таким образом, обычное использование озера Дельта в сеансе искры не работает. из pyspark.sql импортировать SparkSession spark = SparkSession \ .builder...
155 просмотров

Обработка upserts на большом количестве разделов выполняется недостаточно быстро
Проблема У нас есть установка Delta Lake поверх ADLS Gen2 со следующими таблицами: bronze.DeviceData : разделены по дате прибытия ( Partition_Date ) silver.DeviceData : разделены по дате и часу события ( Partition_Date и Partition_Hour )...
316 просмотров

Дельта только для чтения между 2 версиями deltaLake
Есть ли способ прочитать только дельту между двумя версиями deltaLake? конкретно в синапсе я пытался %%pyspark import delta from pyspark.sql.functions import col, asc df_delta = spark.read.format("delta") \...
52 просмотров

Как предотвратить попадание повторяющихся записей в дельта-озеро хранилища Azure
У меня есть Dataframe, хранящийся в формате дельты в Adls, теперь, когда я пытаюсь добавить новые обновленные строки в это озеро дельты, это должно быть, есть ли способ, где я могу удалить старую существующую запись в дельте и добавить новую...
79 просмотров