Вопросы по теме 'azure-databricks'
Scala UDF завершается с ошибкой при вызове из оператора SELECT в DataBricks/Spark
У меня есть следующая функция Scala, которую я зарегистрировал как UDF в Azure DataBricks (Spark 2.3.1 и Scala 2.11):
import org.joda.time.DateTime
val slot = (dt : DateTime) => {
var _s : Int = (dt.dayOfYear().get() - 1) * 24 +...
256 просмотров
schedule
26.04.2024
Проверка версии среды выполнения Databricks в Azure
Можно ли проверить версию среды выполнения Databricks в Azure?
4682 просмотров
schedule
16.11.2022
Spark 2.4.0 - невозможно проанализировать строку ISO8601 в TimestampType с сохранением мс
При попытке преобразовать строки ISO8601 с информацией о часовом поясе в TimestampType с использованием приведения (TimestampType) принимаются только строки с использованием формата часового пояса +01:00. Если часовой пояс определен юридическим...
3220 просмотров
schedule
27.09.2022
Как обновить дельта-таблицу Databricks с помощью внутреннего соединения в Databricks с помощью Spark sql
Мне нужно обновить столбец таблицы с внутренним соединением с другой таблицей. Я пробовал использовать приведенный ниже sql. Но я получаю ошибку в Databricks как (Ошибка в операторе SQL: ParseException: несоответствующий ввод '' ожидая 'КОГДА')....
3660 просмотров
schedule
04.06.2023
Кластер заданий Databricks по конвейеру, а не по активности записной книжки
Я преобразую данные в разных записных книжках Databricks (чтение, преобразование и запись в / из ADLS). Я подключил эти записные книжки к конвейеру DataFactory:
Notebook 1 --> Notebook 2 --> Notebook 3 --> Notebook
Затем я создал...
659 просмотров
schedule
12.04.2024
(SPARK) Как лучше всего разделить данные, к которым применяется несколько фильтров?
Я работаю в Spark (на лазурных блоках данных) с файлом из 15 миллиардов строк, который выглядит следующим образом:
+---------+---------------+----------------+-------------+--------+------+
|client_id|transaction_key|transaction_date|...
197 просмотров
schedule
24.10.2023
Databricks: разница между монтированием и прямым доступом Data Lake Storage Gen 2
В чем разница между подключением Azure Data Lake Store Gen2 к Databricks с использованием предварительной службы и прямого доступа с использованием ключа SAS?
Я хочу знать разницу в сроках передачи данных, безопасности доступа
Спасибо
583 просмотров
schedule
17.06.2023
databricks - смонтированный S3 - как получить метаданные файла, такие как дата последнего изменения (Python)
Я установил ведро s3 в свои блоки данных, и я могу видеть список файлов, и я также могу читать файлы с помощью python
ACCESS_KEY = "XXXXXXXXXX"
SECRET_KEY = "XXXXXXXXXXXXXX"
ENCODED_SECRET_KEY = SECRET_KEY.replace("/", "%2F")
AWS_BUCKET_NAME =...
2931 просмотров
schedule
13.04.2023
Databricks, AzureCredentialNotFoundException
У меня есть кластер High Concurency с включенной интеграцией Active Directory. Время выполнения: Последняя стабильная версия (Scala 2.11), Python: 3.
Я подключил Azure Datalake, и когда я хочу прочитать данные, всегда в первый раз после запуска...
892 просмотров
schedule
13.03.2024
Использование субъекта-службы для доступа к хранилищу BLOB-объектов из Databricks
Я подписался на Получите доступ к учетной записи Azure Data Lake Storage 2-го поколения напрямую с помощью OAuth 2.0 с помощью субъекта-службы и хотите добиться того же, но с хранилищем BLOB-объектов общего назначения v2 (с отключенной...
380 просмотров
schedule
08.06.2023
Проблема в механизме блоков данных при экспорте CSV с греческими символами
В лазурных данных у меня есть искровой фрейм данных с греческими символами в некоторых столбцах. Когда я показываю фрейм данных, символы отображаются правильно. Однако, когда я решаю загрузить csv с фреймом данных из пользовательского интерфейса...
440 просмотров
schedule
13.02.2024
структурированная потоковая запись в несколько потоков
мой сценарий
Gets data from a stream and call a UDF which return a json string. one of the attribute in JSON string is UniqueId, which UDF is generating as guid.newGuid() (C#).
DataFrame output of UDF is written to multiple streams/sinks...
2388 просмотров
schedule
03.10.2023
Хранилище файлов Databricks = 0
Я только что запустил это:
dbutils.fs.ls("dbfs:/FileStore/")
Я вижу такой результат:
[FileInfo(path='dbfs:/FileStore/import-stage/', name='import-stage/', size=0),
FileInfo(path='dbfs:/FileStore/jars/', name='jars/', size=0),...
242 просмотров
schedule
25.07.2023
Databricks-CLI - ValueError: значение тайм-аута подключения было тайм-аутом
Я настраиваю секретную область в лазурных модулях данных, и для этого я установил и настроил Databricks-CLI. Я могу настроить токены блоков данных.
Но всякий раз, когда я выполняю любую из команд в Databricks CLI, я получаю следующую ошибку:...
299 просмотров
schedule
16.07.2022
Как вывести список всех дельта-таблиц в Databricks Azure?
Я сохранил один фрейм данных в моем дельта-озере, ниже приведена команда:
df2.write.format("delta").mode("overwrite").partitionBy("updated_date").save("/delta/userdata/")
Также я могу загрузить и увидеть дельта-озеро / пользовательские...
1850 просмотров
schedule
23.05.2024
Сохранение вывода Matplotlib в хранилище BLOB-объектов на Databricks
Я пытаюсь записать цифры matplotlib в хранилище BLOB-объектов Azure, используя метод, представленный здесь: Сохранение вывода Matplotlib в DBFS на Databricks .
Однако, когда я заменяю путь в коде на
path =...
655 просмотров
schedule
24.08.2023
Как десериализовать фрейм данных искры в другой фрейм данных
Я пытаюсь десериализовать кадр данных искры в другой кадр данных, как ожидается ниже.
Существующие данные кадра данных:
Существующая схема Dataframe:
Ожидаемый кадр данных:
Может ли кто-нибудь помочь мне в этом?
115 просмотров
schedule
13.03.2023
Не удалось сохранить файл в озере данных Azure из блоков данных Azure.
Я пытаюсь сохранить содержимое строки в озере данных Azure как содержимое XML.
строковая переменная содержит указанный ниже XML-контент.
<project>
<dateformat>dd-MM-yy</dateformat>...
234 просмотров
schedule
13.11.2022
Статический IP-адрес для Azure Databricks
Как правильно настроить статический общедоступный IP-адрес (или диапазон IP-адресов) для рабочего пространства Databricks в Azure? Какое было бы самое простое рабочее решение?
Я хотел бы иметь возможность занести в белый список IP-адрес Databricks...
2099 просмотров
schedule
03.03.2022
Как читать файлы параллельно в DataBricks?
Может кто подскажет, как параллельно читать файлы? Я пробую что-то вроде этого:
def processFile(path):
df = spark.read.json(path)
return df.count()
paths = ["...", "..."]
distPaths = sc.parallelize(paths)
counts =...
232 просмотров
schedule
22.01.2024