Вопросы по теме 'azure-databricks'

Scala UDF завершается с ошибкой при вызове из оператора SELECT в DataBricks/Spark
У меня есть следующая функция Scala, которую я зарегистрировал как UDF в Azure DataBricks (Spark 2.3.1 и Scala 2.11): import org.joda.time.DateTime val slot = (dt : DateTime) => { var _s : Int = (dt.dayOfYear().get() - 1) * 24 +...
256 просмотров

Проверка версии среды выполнения Databricks в Azure
Можно ли проверить версию среды выполнения Databricks в Azure?
4682 просмотров
schedule 16.11.2022

Spark 2.4.0 - невозможно проанализировать строку ISO8601 в TimestampType с сохранением мс
При попытке преобразовать строки ISO8601 с информацией о часовом поясе в TimestampType с использованием приведения (TimestampType) принимаются только строки с использованием формата часового пояса +01:00. Если часовой пояс определен юридическим...
3220 просмотров

Как обновить дельта-таблицу Databricks с помощью внутреннего соединения в Databricks с помощью Spark sql
Мне нужно обновить столбец таблицы с внутренним соединением с другой таблицей. Я пробовал использовать приведенный ниже sql. Но я получаю ошибку в Databricks как (Ошибка в операторе SQL: ParseException: несоответствующий ввод '' ожидая 'КОГДА')....
3660 просмотров
schedule 04.06.2023

Кластер заданий Databricks по конвейеру, а не по активности записной книжки
Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS). Я подключил эти записные книжки к конвейеру DataFactory: Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook Затем я создал...
659 просмотров

(SPARK) Как лучше всего разделить данные, к которым применяется несколько фильтров?
Я работаю в Spark (на лазурных блоках данных) с файлом из 15 миллиардов строк, который выглядит следующим образом: +---------+---------------+----------------+-------------+--------+------+ |client_id|transaction_key|transaction_date|...
197 просмотров

Databricks: разница между монтированием и прямым доступом Data Lake Storage Gen 2
В чем разница между подключением Azure Data Lake Store Gen2 к Databricks с использованием предварительной службы и прямого доступа с использованием ключа SAS? Я хочу знать разницу в сроках передачи данных, безопасности доступа Спасибо
583 просмотров

databricks - смонтированный S3 - как получить метаданные файла, такие как дата последнего изменения (Python)
Я установил ведро s3 в свои блоки данных, и я могу видеть список файлов, и я также могу читать файлы с помощью python ACCESS_KEY = "XXXXXXXXXX" SECRET_KEY = "XXXXXXXXXXXXXX" ENCODED_SECRET_KEY = SECRET_KEY.replace("/", "%2F") AWS_BUCKET_NAME =...
2931 просмотров

Databricks, AzureCredentialNotFoundException
У меня есть кластер High Concurency с включенной интеграцией Active Directory. Время выполнения: Последняя стабильная версия (Scala 2.11), Python: 3. Я подключил Azure Datalake, и когда я хочу прочитать данные, всегда в первый раз после запуска...
892 просмотров
schedule 13.03.2024

Использование субъекта-службы для доступа к хранилищу BLOB-объектов из Databricks
Я подписался на Получите доступ к учетной записи Azure Data Lake Storage 2-го поколения напрямую с помощью OAuth 2.0 с помощью субъекта-службы и хотите добиться того же, но с хранилищем BLOB-объектов общего назначения v2 (с отключенной...
380 просмотров
schedule 08.06.2023

Проблема в механизме блоков данных при экспорте CSV с греческими символами
В лазурных данных у меня есть искровой фрейм данных с греческими символами в некоторых столбцах. Когда я показываю фрейм данных, символы отображаются правильно. Однако, когда я решаю загрузить csv с фреймом данных из пользовательского интерфейса...
440 просмотров

структурированная потоковая запись в несколько потоков
мой сценарий Gets data from a stream and call a UDF which return a json string. one of the attribute in JSON string is UniqueId, which UDF is generating as guid.newGuid() (C#). DataFrame output of UDF is written to multiple streams/sinks...
2388 просмотров

Хранилище файлов Databricks = 0
Я только что запустил это: dbutils.fs.ls("dbfs:/FileStore/") Я вижу такой результат: [FileInfo(path='dbfs:/FileStore/import-stage/', name='import-stage/', size=0), FileInfo(path='dbfs:/FileStore/jars/', name='jars/', size=0),...
242 просмотров

Databricks-CLI - ValueError: значение тайм-аута подключения было тайм-аутом
Я настраиваю секретную область в лазурных модулях данных, и для этого я установил и настроил Databricks-CLI. Я могу настроить токены блоков данных. Но всякий раз, когда я выполняю любую из команд в Databricks CLI, я получаю следующую ошибку:...
299 просмотров
schedule 16.07.2022

Как вывести список всех дельта-таблиц в Databricks Azure?
Я сохранил один фрейм данных в моем дельта-озере, ниже приведена команда: df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/") Также я могу загрузить и увидеть дельта-озеро / пользовательские...
1850 просмотров

Сохранение вывода Matplotlib в хранилище BLOB-объектов на Databricks
Я пытаюсь записать цифры matplotlib в хранилище BLOB-объектов Azure, используя метод, представленный здесь: Сохранение вывода Matplotlib в DBFS на Databricks . Однако, когда я заменяю путь в коде на path =...
655 просмотров
schedule 24.08.2023

Как десериализовать фрейм данных искры в другой фрейм данных
Я пытаюсь десериализовать кадр данных искры в другой кадр данных, как ожидается ниже. Существующие данные кадра данных: Существующая схема Dataframe: Ожидаемый кадр данных: Может ли кто-нибудь помочь мне в этом?
115 просмотров

Не удалось сохранить файл в озере данных Azure из блоков данных Azure.
Я пытаюсь сохранить содержимое строки в озере данных Azure как содержимое XML. строковая переменная содержит указанный ниже XML-контент. <project> <dateformat>dd-MM-yy</dateformat>...
234 просмотров

Статический IP-адрес для Azure Databricks
Как правильно настроить статический общедоступный IP-адрес (или диапазон IP-адресов) для рабочего пространства Databricks в Azure? Какое было бы самое простое рабочее решение? Я хотел бы иметь возможность занести в белый список IP-адрес Databricks...
2099 просмотров
schedule 03.03.2022

Как читать файлы параллельно в DataBricks?
Может кто подскажет, как параллельно читать файлы? Я пробую что-то вроде этого: def processFile(path): df = spark.read.json(path) return df.count() paths = ["...", "..."] distPaths = sc.parallelize(paths) counts =...
232 просмотров