Статьи по теме databricks

Публикации по теме 'databricks'

Как мы сэкономили 60 % ежемесячной стоимости Azure Databricks

Следуя этим 4 кратким советам, вы сможете значительно сэкономить на ежемесячных расходах на Azure Databricks. Добро пожаловать в мою первую статью о среде. Сегодняшняя статья посвящена одной из самых горячих тем современности — оптимизации расходов. В этой статье основное внимание уделяется оптимизации ежемесячных затрат на Azure Databricks и выделяются четыре простых совета, которым мы следовали, чтобы добиться оптимизации ежемесячных затрат на 60 % в нашей команде. Прежде чем вдаваться..

Как получить сертификацию Data Bricks

Эй, ребята, С увеличением объема данных, которые мы накапливаем, потребность в принятии обоснованных решений и понимании желаний клиентов достигает пика, из-за чего компании начали использовать большие данные в своих системах. Блоки данных — это потрясающая платформа, на которой люди, работающие со всеми измерениями данных, будь то аналитик данных, инженер данных или специалист по данным, могут работать и сотрудничать. Databricks означает, что вы можете получить максимальную..

Вопросы по теме 'databricks'

Pyspark читает csv - NameError: имя 'spark' не определено

Я пытаюсь запустить следующий код в блоках данных, чтобы вызвать сеанс искры и использовать его для открытия файла csv: spark fireServiceCallsDF =...

5445 просмотров

apache-spark pyspark databricks

21.04.2022

Ошибка Pyspark с UDF: py4j.Py4JException: метод __getnewargs__([]) не существует, ошибка

Я пытаюсь решить следующую ошибку (использую платформу databricks и spark 2.0) tweets_cleaned.createOrReplaceTempView("tweets_cleanedSQL") def Occ(keyword): occurences = spark.sql("SELECT * \ FROM...

4744 просмотров

python apache-spark pyspark databricks

05.02.2024

Не удается прочитать текстовый файл из локального пути к файлу - программа чтения Spark CSV

Мы используем программу чтения CSV Spark для чтения CSV-файла для преобразования в DataFrame, и мы запускаем задание на yarn-client , оно отлично работает в локальном режиме. Мы отправляем задание искры в edge node . Но когда мы помещаем файл...

2898 просмотров

databricks apache-spark-sql spark-csv

15.03.2023

Чтение отдельных каталогов и создание отдельных RDD параллельно с помощью Scala Spark

Мне нужно читать файлы JSON из отдельных исходных каталогов и создавать отдельные таблицы для каждого каталога. Я бы хотел, чтобы это делалось параллельно, но Spark не поддерживает вложенные RDD, поэтому в настоящее время он делает это...

672 просмотров

apache-spark databricks scala rdd concurrent.futures

06.01.2024

Фильтрация по количеству раз, когда значение появляется в PySpark

У меня есть файл со столбцом, содержащим идентификаторы. Обычно идентификатор появляется только один раз, но иногда он связан с несколькими записями. Я хочу подсчитать, сколько раз появлялся данный идентификатор, а затем разделить его на два...

4046 просмотров

python pyspark databricks

13.07.2023

Разнесение столбца с массивом массивов - PySpark

У меня есть столбец с такими данными: [[[-77.1082606, 38.935738]] ,Point] Я хочу, чтобы он был разделен следующим образом: column 1 column 2 column 3 -77.1082606 38.935738 Point Как это возможно...

1292 просмотров

python arrays apache-spark pyspark databricks

23.09.2023

Количество исполнителей Apache Spark

У меня есть приложение Spark на блоках данных, работающее на кластере из 32 узлов, по 16 ядер в каждом и 30 ГБ памяти. Я хотел изменить некоторые конфигурации сеанса, но независимо от того, что я изменю, я не могу создать больше исполнителей, чем 32...

1183 просмотров

apache-spark databricks apache-spark-sql spark-dataframe

10.08.2023

Как импортировать записную книжку с локального компьютера на портал Azure Databricks?

Как импортировать записную книжку с локального компьютера в Azure Databricks? У меня есть образец записной книжки в формате DBC на моем локальном компьютере, и мне нужно импортировать его через Notebook Rest API. curl -n -H "Content-Type:...

720 просмотров

azure curl databricks spark-notebook

09.03.2023

Spark не будет загружать большую таблицу MySql: сбой канала связи Java — тайм-аут

Я пытаюсь получить довольно большую таблицу из mysql, чтобы я мог манипулировать ею с помощью spark/databricks. Я не могу загрузить его в искру - я пробовал брать меньшие подмножества, но даже на самом маленьком разумном блоке он все равно не...

2017 просмотров

apache-spark pyspark databricks apache-spark-sql jdbc

09.03.2023

Экспорт фрейма данных Spark в .csv с заголовком и конкретным именем файла

Я пытаюсь экспортировать данные из фрейма данных Spark в файл .csv: df.coalesce(1)\ .write\ .format("com.databricks.spark.csv")\ .option("header", "true")\ .save(output_path) Создается файл с именем...

11770 просмотров

python apache-spark pyspark databricks export-to-csv

08.01.2023

перебирать каждый элемент списка и переходить к функции

Я хочу перебрать каждый элемент списка и передать его функции. Это то, что я пробовал, но получаю ошибки ниже. import call_functions newObject = call_functions.call_functions_class() size_DF = newObject.descr_size(sc, dataBase) size_RDD =...

90 просмотров

python apache-spark pyspark databricks pyspark-sql

12.09.2023

Создайте Dataframe из пользовательского разделителя строк и пользовательского файла разделителя столбцов из файла dat

У меня есть файл .dat с (\ u0002\n) в качестве разделителя строк и (\ u0001) в качестве разделителя столбцов. Я могу получить только 1 запись в искровом DataFrame, когда использую этот подход....

262 просмотров

apache-spark dataframe databricks rdd spark-dataframe

17.08.2022

Сохранение пустого DataFrame с известной схемой (Spark 2.2.1)

Можно ли сохранить пустой DataFrame с известной схемой, чтобы схема была записана в файл, даже если в ней 0 записей? def example(spark: SparkSession, path: String, schema: StructType) = { val dataframe =...

5120 просмотров

parquet apache-spark databricks

19.01.2024

SparkR org.apache.spark.SparkException: рабочий процесс R неожиданно завершился

Я пытаюсь выполнить SparkR gapply , по сути, когда я пытаюсь запустить это с моим входным файлом, ограниченным примерно 300 тыс. строк, он работает, однако при масштабировании примерно до 1,2 млн строк я получаю следующее повторяющееся исключение в...

332 просмотров

apache-spark databricks sparkr

17.02.2024

Связь от Искры к Снежинке

Я пишу это не для того, чтобы задать вопрос, а чтобы поделиться знаниями. Я использовал Spark для подключения к Snowflake. Но я не мог получить доступ к снежинке. Похоже, что что-то не так с внутренним драйвером JDBC в блоках данных. Это была...

2686 просмотров

snowflake-cloud-data-platform apache-spark databricks apache-spark-sql

12.06.2023

Используйте рекурсивную подстановку для извлечения XML-документов в виде строк в pyspark

Цель состоит в том, чтобы извлечь XML-документы по заданному выражению XPath из группы текстовых файлов в виде строк. Сложность заключается в разнообразии форм, в которых могут находиться текстовые файлы. Это может быть: один файл zip / tar с...

400 просмотров

apache-spark pyspark databricks apache-spark-xml

23.06.2022

NameError: имя dbutils не определено в pyspark

Я выполняю задание pyspark в облаке databricks. Мне нужно записать некоторые из файлов csv в файловую систему databricks (dbfs) как часть этой работы, а также мне нужно использовать некоторые из собственных команд dbutils, например, #mount azure...

6381 просмотров

databricks azure-blob-storage pyspark-sql

20.02.2022

Чтение CSV-файлов с отсутствующими столбцами и случайным порядком столбцов

У меня есть схема, которую я хочу применить к CSV-файлам в Databricks. Файлы csv могут содержать 6 столбцов (a,b,c,d,e,f), которые могут появляться в файлах csv в случайном порядке. Также может случиться так, что один или несколько столбцов...

1693 просмотров

csv apache-spark databricks

17.10.2022

Как изменить часовой пояс по умолчанию, используемый: spark.read.jdbc при чтении с SQL Server

Я использую Databricks Runtime 4.2 (включая Apache Spark 2.3.1, Scala 2.11) В записной книжке Scala, когда я читаю данные из SQL Server 2012 через JDBC с помощью такой команды: val data_frame = spark.read.jdbc (,,) Все столбцы DATETIME SQL...

611 просмотров

databricks scala jdbc

15.03.2023

Запись DataFrame из Databricks в озеро данных

Бывает, что я манипулирую некоторыми данными с помощью Azure Databricks. Такие данные находятся в хранилище озера данных Azure 1-го поколения. Я смонтировал данные в DBFS, но теперь, после преобразования данных, я хотел бы записать их обратно в свое...

6399 просмотров

azure azure-data-lake databricks

28.06.2023

Публикации по теме 'databricks'

Как мы сэкономили 60 % ежемесячной стоимости Azure Databricks

Как получить сертификацию Data Bricks

Вопросы по теме 'databricks'

Похожие вопросы