Вопросы по теме 'delta-lake'
Как удалить старые версии таблиц в Delta Lake
Как я понимаю из документации, delta lake позволяет откатиться или, как говорится, «путешествие во времени» к какой-то конкретной версии таблицы. Но как я могу убедиться, что удаление данных действительно приведет к их удалению без создания новой...
1229 просмотров
schedule
02.01.2024
Как вывести список всех дельта-таблиц в Databricks Azure?
Я сохранил один фрейм данных в моем дельта-озере, ниже приведена команда:
df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/")
Также я могу загрузить и увидеть дельта-озеро / пользовательские...
1850 просмотров
schedule
23.05.2024
Невозможно читать из s3 с помощью Spark при использовании 2.8.0 hadoop aws jar и не может записывать как дельта-таблицу в s3 при использовании hadoop aws 2.7.3
Я не могу получить доступ к s3 из искры, когда использую hadoop aws jar 2.8.0. В основном я хочу создать (паркетный) файл из s3 и записать его как дельта-таблицу в s3.
//Spark shell command
spark-shell --packages...
235 просмотров
schedule
25.12.2022
Delta Lake: исключение File Not Found
Я использую Delta Lake для выполнения операции слияния, для которой я пытаюсь преобразовать свои файлы Parquet в формат дельты, которые со временем разбиваются на разделы:
val source = spark.read.parquet("s3a://data-lake/source/")
source...
464 просмотров
schedule
28.11.2022
Процесс курирования с библиотеками Delta Lake (без Databricks)
Я использую
AWS DMS для извлечения данных из Oracle
Он приземляется в S3 Raw Bucket.
Используя AWS Glue, я хочу написать код pyspark БЕЗ использования продукта databricks для объединения данных CDC с начальной загрузкой.
Какие библиотеки...
119 просмотров
schedule
01.07.2022
Единый SparkContext для группы пользователей JupyterHub в режиме кластера
Я создаю платформу обработки данных для своей организации (пока что в качестве POC), которая будет использоваться только внутри компании максимум 20 участниками. Идея состоит в том, чтобы использовать: Spark (в Kubernetes) для вычислений Delta...
27 просмотров
schedule
26.08.2022
Установите библиотеки Delta Lake на сервер без доступа к Интернету.
У меня есть сервер без доступа в Интернет, на котором я хотел бы использовать Delta Lake. Таким образом, обычное использование озера Дельта в сеансе искры не работает. из pyspark.sql импортировать SparkSession
spark = SparkSession \
.builder...
155 просмотров
schedule
23.04.2024
Обработка upserts на большом количестве разделов выполняется недостаточно быстро
Проблема
У нас есть установка Delta Lake поверх ADLS Gen2 со следующими таблицами:
bronze.DeviceData : разделены по дате прибытия ( Partition_Date )
silver.DeviceData : разделены по дате и часу события ( Partition_Date и Partition_Hour )...
316 просмотров
schedule
05.05.2024
Дельта только для чтения между 2 версиями deltaLake
Есть ли способ прочитать только дельту между двумя версиями deltaLake? конкретно в синапсе
я пытался
%%pyspark
import delta
from pyspark.sql.functions import col, asc
df_delta = spark.read.format("delta") \...
52 просмотров
schedule
13.06.2023
Как предотвратить попадание повторяющихся записей в дельта-озеро хранилища Azure
У меня есть Dataframe, хранящийся в формате дельты в Adls, теперь, когда я пытаюсь добавить новые обновленные строки в это озеро дельты, это должно быть, есть ли способ, где я могу удалить старую существующую запись в дельте и добавить новую...
79 просмотров
schedule
04.08.2022