Публикации по теме 'databricks'
Как мы сэкономили 60 % ежемесячной стоимости Azure Databricks
Следуя этим 4 кратким советам, вы сможете значительно сэкономить на ежемесячных расходах на Azure Databricks.
Добро пожаловать в мою первую статью о среде. Сегодняшняя статья посвящена одной из самых горячих тем современности — оптимизации расходов. В этой статье основное внимание уделяется оптимизации ежемесячных затрат на Azure Databricks и выделяются четыре простых совета, которым мы следовали, чтобы добиться оптимизации ежемесячных затрат на 60 % в нашей команде. Прежде чем вдаваться..
Как получить сертификацию Data Bricks
Эй, ребята,
С увеличением объема данных, которые мы накапливаем, потребность в принятии обоснованных решений и понимании желаний клиентов достигает пика, из-за чего компании начали использовать большие данные в своих системах.
Блоки данных — это потрясающая платформа, на которой люди, работающие со всеми измерениями данных, будь то аналитик данных, инженер данных или специалист по данным, могут работать и сотрудничать.
Databricks означает, что вы можете получить максимальную..
Вопросы по теме 'databricks'
Pyspark читает csv - NameError: имя 'spark' не определено
Я пытаюсь запустить следующий код в блоках данных, чтобы вызвать сеанс искры и использовать его для открытия файла csv:
spark
fireServiceCallsDF =...
5445 просмотров
schedule
21.04.2022
Ошибка Pyspark с UDF: py4j.Py4JException: метод __getnewargs__([]) не существует, ошибка
Я пытаюсь решить следующую ошибку (использую платформу databricks и spark 2.0)
tweets_cleaned.createOrReplaceTempView("tweets_cleanedSQL")
def Occ(keyword):
occurences = spark.sql("SELECT * \
FROM...
4744 просмотров
schedule
05.02.2024
Не удается прочитать текстовый файл из локального пути к файлу - программа чтения Spark CSV
Мы используем программу чтения CSV Spark для чтения CSV-файла для преобразования в DataFrame, и мы запускаем задание на yarn-client , оно отлично работает в локальном режиме.
Мы отправляем задание искры в edge node .
Но когда мы помещаем файл...
2898 просмотров
schedule
15.03.2023
Чтение отдельных каталогов и создание отдельных RDD параллельно с помощью Scala Spark
Мне нужно читать файлы JSON из отдельных исходных каталогов и создавать отдельные таблицы для каждого каталога. Я бы хотел, чтобы это делалось параллельно, но Spark не поддерживает вложенные RDD, поэтому в настоящее время он делает это...
672 просмотров
schedule
06.01.2024
Фильтрация по количеству раз, когда значение появляется в PySpark
У меня есть файл со столбцом, содержащим идентификаторы. Обычно идентификатор появляется только один раз, но иногда он связан с несколькими записями. Я хочу подсчитать, сколько раз появлялся данный идентификатор, а затем разделить его на два...
4046 просмотров
schedule
13.07.2023
Разнесение столбца с массивом массивов - PySpark
У меня есть столбец с такими данными:
[[[-77.1082606, 38.935738]] ,Point]
Я хочу, чтобы он был разделен следующим образом:
column 1 column 2 column 3
-77.1082606 38.935738 Point
Как это возможно...
1292 просмотров
schedule
23.09.2023
Количество исполнителей Apache Spark
У меня есть приложение Spark на блоках данных, работающее на кластере из 32 узлов, по 16 ядер в каждом и 30 ГБ памяти. Я хотел изменить некоторые конфигурации сеанса, но независимо от того, что я изменю, я не могу создать больше исполнителей, чем 32...
1183 просмотров
schedule
10.08.2023
Как импортировать записную книжку с локального компьютера на портал Azure Databricks?
Как импортировать записную книжку с локального компьютера в Azure Databricks?
У меня есть образец записной книжки в формате DBC на моем локальном компьютере, и мне нужно импортировать его через Notebook Rest API.
curl -n -H "Content-Type:...
720 просмотров
schedule
09.03.2023
Spark не будет загружать большую таблицу MySql: сбой канала связи Java — тайм-аут
Я пытаюсь получить довольно большую таблицу из mysql, чтобы я мог манипулировать ею с помощью spark/databricks. Я не могу загрузить его в искру - я пробовал брать меньшие подмножества, но даже на самом маленьком разумном блоке он все равно не...
2017 просмотров
schedule
09.03.2023
Экспорт фрейма данных Spark в .csv с заголовком и конкретным именем файла
Я пытаюсь экспортировать данные из фрейма данных Spark в файл .csv:
df.coalesce(1)\
.write\
.format("com.databricks.spark.csv")\
.option("header", "true")\
.save(output_path)
Создается файл с именем...
11770 просмотров
schedule
08.01.2023
перебирать каждый элемент списка и переходить к функции
Я хочу перебрать каждый элемент списка и передать его функции. Это то, что я пробовал, но получаю ошибки ниже.
import call_functions
newObject = call_functions.call_functions_class()
size_DF = newObject.descr_size(sc, dataBase)
size_RDD =...
90 просмотров
schedule
12.09.2023
Создайте Dataframe из пользовательского разделителя строк и пользовательского файла разделителя столбцов из файла dat
У меня есть файл .dat с (\ u0002\n) в качестве разделителя строк и (\ u0001) в качестве разделителя столбцов. Я могу получить только 1 запись в искровом DataFrame, когда использую этот подход....
262 просмотров
schedule
17.08.2022
Сохранение пустого DataFrame с известной схемой (Spark 2.2.1)
Можно ли сохранить пустой DataFrame с известной схемой, чтобы схема была записана в файл, даже если в ней 0 записей?
def example(spark: SparkSession, path: String, schema: StructType) = {
val dataframe =...
5120 просмотров
schedule
19.01.2024
SparkR org.apache.spark.SparkException: рабочий процесс R неожиданно завершился
Я пытаюсь выполнить SparkR gapply , по сути, когда я пытаюсь запустить это с моим входным файлом, ограниченным примерно 300 тыс. строк, он работает, однако при масштабировании примерно до 1,2 млн строк я получаю следующее повторяющееся исключение в...
332 просмотров
schedule
17.02.2024
Связь от Искры к Снежинке
Я пишу это не для того, чтобы задать вопрос, а чтобы поделиться знаниями. Я использовал Spark для подключения к Snowflake. Но я не мог получить доступ к снежинке. Похоже, что что-то не так с внутренним драйвером JDBC в блоках данных.
Это была...
2686 просмотров
schedule
12.06.2023
Используйте рекурсивную подстановку для извлечения XML-документов в виде строк в pyspark
Цель состоит в том, чтобы извлечь XML-документы по заданному выражению XPath из группы текстовых файлов в виде строк. Сложность заключается в разнообразии форм, в которых могут находиться текстовые файлы. Это может быть:
один файл zip / tar с...
400 просмотров
schedule
23.06.2022
NameError: имя dbutils не определено в pyspark
Я выполняю задание pyspark в облаке databricks. Мне нужно записать некоторые из файлов csv в файловую систему databricks (dbfs) как часть этой работы, а также мне нужно использовать некоторые из собственных команд dbutils, например,
#mount azure...
6381 просмотров
schedule
20.02.2022
Чтение CSV-файлов с отсутствующими столбцами и случайным порядком столбцов
У меня есть схема, которую я хочу применить к CSV-файлам в Databricks. Файлы csv могут содержать 6 столбцов (a,b,c,d,e,f), которые могут появляться в файлах csv в случайном порядке. Также может случиться так, что один или несколько столбцов...
1693 просмотров
schedule
17.10.2022
Как изменить часовой пояс по умолчанию, используемый: spark.read.jdbc при чтении с SQL Server
Я использую Databricks Runtime 4.2 (включая Apache Spark 2.3.1, Scala 2.11)
В записной книжке Scala, когда я читаю данные из SQL Server 2012 через JDBC с помощью такой команды:
val data_frame = spark.read.jdbc (,,)
Все столбцы DATETIME SQL...
611 просмотров
schedule
15.03.2023
Запись DataFrame из Databricks в озеро данных
Бывает, что я манипулирую некоторыми данными с помощью Azure Databricks. Такие данные находятся в хранилище озера данных Azure 1-го поколения. Я смонтировал данные в DBFS, но теперь, после преобразования данных, я хотел бы записать их обратно в свое...
6399 просмотров
schedule
28.06.2023