Статьи по теме azure-databricks [apache-spark, azure-databricks, scala, user-defined-functions, azure]

Вопросы по теме 'azure-databricks'

Scala UDF завершается с ошибкой при вызове из оператора SELECT в DataBricks/Spark

У меня есть следующая функция Scala, которую я зарегистрировал как UDF в Azure DataBricks (Spark 2.3.1 и Scala 2.11): import org.joda.time.DateTime val slot = (dt : DateTime) => { var _s : Int = (dt.dayOfYear().get() - 1) * 24 +...

256 просмотров

26.04.2024

Проверка версии среды выполнения Databricks в Azure

Можно ли проверить версию среды выполнения Databricks в Azure?

4682 просмотров

azure azure-databricks version

16.11.2022

Spark 2.4.0 - невозможно проанализировать строку ISO8601 в TimestampType с сохранением мс

При попытке преобразовать строки ISO8601 с информацией о часовом поясе в TimestampType с использованием приведения (TimestampType) принимаются только строки с использованием формата часового пояса +01:00. Если часовой пояс определен юридическим...

3220 просмотров

apache-spark azure-databricks databricks

27.09.2022

Как обновить дельта-таблицу Databricks с помощью внутреннего соединения в Databricks с помощью Spark sql

Мне нужно обновить столбец таблицы с внутренним соединением с другой таблицей. Я пробовал использовать приведенный ниже sql. Но я получаю ошибку в Databricks как (Ошибка в операторе SQL: ParseException: несоответствующий ввод '' ожидая 'КОГДА')....

3660 просмотров

azure-databricks apache-spark-sql

04.06.2023

Кластер заданий Databricks по конвейеру, а не по активности записной книжки

Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS). Я подключил эти записные книжки к конвейеру DataFactory: Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook Затем я создал...

659 просмотров

azure azure-data-factory azure-databricks databricks

12.04.2024

(SPARK) Как лучше всего разделить данные, к которым применяется несколько фильтров?

Я работаю в Spark (на лазурных блоках данных) с файлом из 15 миллиардов строк, который выглядит следующим образом: +---------+---------------+----------------+-------------+--------+------+ |client_id|transaction_key|transaction_date|...

197 просмотров

apache-spark pyspark azure-databricks filtering data-partitioning

24.10.2023

Databricks: разница между монтированием и прямым доступом Data Lake Storage Gen 2

В чем разница между подключением Azure Data Lake Store Gen2 к Databricks с использованием предварительной службы и прямого доступа с использованием ключа SAS? Я хочу знать разницу в сроках передачи данных, безопасности доступа Спасибо

583 просмотров

azure apache-spark azure-databricks databricks

17.06.2023

databricks - смонтированный S3 - как получить метаданные файла, такие как дата последнего изменения (Python)

Я установил ведро s3 в свои блоки данных, и я могу видеть список файлов, и я также могу читать файлы с помощью python ACCESS_KEY = "XXXXXXXXXX" SECRET_KEY = "XXXXXXXXXXXXXX" ENCODED_SECRET_KEY = SECRET_KEY.replace("/", "%2F") AWS_BUCKET_NAME =...

2931 просмотров

python apache-spark azure-databricks databricks

13.04.2023

Databricks, AzureCredentialNotFoundException

У меня есть кластер High Concurency с включенной интеграцией Active Directory. Время выполнения: Последняя стабильная версия (Scala 2.11), Python: 3. Я подключил Azure Datalake, и когда я хочу прочитать данные, всегда в первый раз после запуска...

892 просмотров

azure-databricks databricks

13.03.2024

Использование субъекта-службы для доступа к хранилищу BLOB-объектов из Databricks

Я подписался на Получите доступ к учетной записи Azure Data Lake Storage 2-го поколения напрямую с помощью OAuth 2.0 с помощью субъекта-службы и хотите добиться того же, но с хранилищем BLOB-объектов общего назначения v2 (с отключенной...

380 просмотров

azure-databricks databricks

08.06.2023

Проблема в механизме блоков данных при экспорте CSV с греческими символами

В лазурных данных у меня есть искровой фрейм данных с греческими символами в некоторых столбцах. Когда я показываю фрейм данных, символы отображаются правильно. Однако, когда я решаю загрузить csv с фреймом данных из пользовательского интерфейса...

440 просмотров

csv pyspark azure-databricks databricks encoding

13.02.2024

структурированная потоковая запись в несколько потоков

мой сценарий Gets data from a stream and call a UDF which return a json string. one of the attribute in JSON string is UniqueId, which UDF is generating as guid.newGuid() (C#). DataFrame output of UDF is written to multiple streams/sinks...

2388 просмотров

apache-spark azure-databricks spark-structured-streaming

03.10.2023

Хранилище файлов Databricks = 0

Я только что запустил это: dbutils.fs.ls("dbfs:/FileStore/") Я вижу такой результат: [FileInfo(path='dbfs:/FileStore/import-stage/', name='import-stage/', size=0), FileInfo(path='dbfs:/FileStore/jars/', name='jars/', size=0),...

242 просмотров

azure azure-data-lake azure-data-factory-2 azure-databricks

25.07.2023

Databricks-CLI - ValueError: значение тайм-аута подключения было тайм-аутом

Я настраиваю секретную область в лазурных модулях данных, и для этого я установил и настроил Databricks-CLI. Я могу настроить токены блоков данных. Но всякий раз, когда я выполняю любую из команд в Databricks CLI, я получаю следующую ошибку:...

299 просмотров

azure-databricks

16.07.2022

Как вывести список всех дельта-таблиц в Databricks Azure?

Я сохранил один фрейм данных в моем дельта-озере, ниже приведена команда: df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/") Также я могу загрузить и увидеть дельта-озеро / пользовательские...

1850 просмотров

apache-spark delta-lake azure-databricks

23.05.2024

Сохранение вывода Matplotlib в хранилище BLOB-объектов на Databricks

Я пытаюсь записать цифры matplotlib в хранилище BLOB-объектов Azure, используя метод, представленный здесь: Сохранение вывода Matplotlib в DBFS на Databricks . Однако, когда я заменяю путь в коде на path =...

655 просмотров

matplotlib azure-databricks databricks

24.08.2023

Как десериализовать фрейм данных искры в другой фрейм данных

Я пытаюсь десериализовать кадр данных искры в другой кадр данных, как ожидается ниже. Существующие данные кадра данных: Существующая схема Dataframe: Ожидаемый кадр данных: Может ли кто-нибудь помочь мне в этом?

115 просмотров

python apache-spark pyspark azure-databricks apache-spark-sql

13.03.2023

Не удалось сохранить файл в озере данных Azure из блоков данных Azure.

Я пытаюсь сохранить содержимое строки в озере данных Azure как содержимое XML. строковая переменная содержит указанный ниже XML-контент. <project> <dateformat>dd-MM-yy</dateformat>...

234 просмотров

python-3.x xml apache-spark pyspark azure-databricks

13.11.2022

Статический IP-адрес для Azure Databricks

Как правильно настроить статический общедоступный IP-адрес (или диапазон IP-адресов) для рабочего пространства Databricks в Azure? Какое было бы самое простое рабочее решение? Я хотел бы иметь возможность занести в белый список IP-адрес Databricks...

2099 просмотров

azure azure-databricks databricks

03.03.2022

Как читать файлы параллельно в DataBricks?

Может кто подскажет, как параллельно читать файлы? Я пробую что-то вроде этого: def processFile(path): df = spark.read.json(path) return df.count() paths = ["...", "..."] distPaths = sc.parallelize(paths) counts =...

232 просмотров

python apache-spark azure-databricks databricks

22.01.2024

Вопросы по теме 'azure-databricks'

Похожие вопросы