Публикации по теме 'databricks'


Как мы сэкономили 60 % ежемесячной стоимости Azure Databricks
Следуя этим 4 кратким советам, вы сможете значительно сэкономить на ежемесячных расходах на Azure Databricks. Добро пожаловать в мою первую статью о среде. Сегодняшняя статья посвящена одной из самых горячих тем современности — оптимизации расходов. В этой статье основное внимание уделяется оптимизации ежемесячных затрат на Azure Databricks и выделяются четыре простых совета, которым мы следовали, чтобы добиться оптимизации ежемесячных затрат на 60 % в нашей команде. Прежде чем вдаваться..

Как получить сертификацию Data Bricks
Эй, ребята, С увеличением объема данных, которые мы накапливаем, потребность в принятии обоснованных решений и понимании желаний клиентов достигает пика, из-за чего компании начали использовать большие данные в своих системах. Блоки данных — это потрясающая платформа, на которой люди, работающие со всеми измерениями данных, будь то аналитик данных, инженер данных или специалист по данным, могут работать и сотрудничать. Databricks означает, что вы можете получить максимальную..

Вопросы по теме 'databricks'

Pyspark читает csv - NameError: имя 'spark' не определено
Я пытаюсь запустить следующий код в блоках данных, чтобы вызвать сеанс искры и использовать его для открытия файла csv: spark fireServiceCallsDF =...
5445 просмотров
schedule 21.04.2022

Ошибка Pyspark с UDF: py4j.Py4JException: метод __getnewargs__([]) не существует, ошибка
Я пытаюсь решить следующую ошибку (использую платформу databricks и spark 2.0) tweets_cleaned.createOrReplaceTempView("tweets_cleanedSQL") def Occ(keyword): occurences = spark.sql("SELECT * \ FROM...
4744 просмотров
schedule 05.02.2024

Не удается прочитать текстовый файл из локального пути к файлу - программа чтения Spark CSV
Мы используем программу чтения CSV Spark для чтения CSV-файла для преобразования в DataFrame, и мы запускаем задание на yarn-client , оно отлично работает в локальном режиме. Мы отправляем задание искры в edge node . Но когда мы помещаем файл...
2898 просмотров
schedule 15.03.2023

Чтение отдельных каталогов и создание отдельных RDD параллельно с помощью Scala Spark
Мне нужно читать файлы JSON из отдельных исходных каталогов и создавать отдельные таблицы для каждого каталога. Я бы хотел, чтобы это делалось параллельно, но Spark не поддерживает вложенные RDD, поэтому в настоящее время он делает это...
672 просмотров

Фильтрация по количеству раз, когда значение появляется в PySpark
У меня есть файл со столбцом, содержащим идентификаторы. Обычно идентификатор появляется только один раз, но иногда он связан с несколькими записями. Я хочу подсчитать, сколько раз появлялся данный идентификатор, а затем разделить его на два...
4046 просмотров
schedule 13.07.2023

Разнесение столбца с массивом массивов - PySpark
У меня есть столбец с такими данными: [[[-77.1082606, 38.935738]] ,Point] Я хочу, чтобы он был разделен следующим образом: column 1 column 2 column 3 -77.1082606 38.935738 Point Как это возможно...
1292 просмотров

Количество исполнителей Apache Spark
У меня есть приложение Spark на блоках данных, работающее на кластере из 32 узлов, по 16 ядер в каждом и 30 ГБ памяти. Я хотел изменить некоторые конфигурации сеанса, но независимо от того, что я изменю, я не могу создать больше исполнителей, чем 32...
1183 просмотров

Как импортировать записную книжку с локального компьютера на портал Azure Databricks?
Как импортировать записную книжку с локального компьютера в Azure Databricks? У меня есть образец записной книжки в формате DBC на моем локальном компьютере, и мне нужно импортировать его через Notebook Rest API. curl -n -H "Content-Type:...
720 просмотров
schedule 09.03.2023

Spark не будет загружать большую таблицу MySql: сбой канала связи Java — тайм-аут
Я пытаюсь получить довольно большую таблицу из mysql, чтобы я мог манипулировать ею с помощью spark/databricks. Я не могу загрузить его в искру - я пробовал брать меньшие подмножества, но даже на самом маленьком разумном блоке он все равно не...
2017 просмотров

Экспорт фрейма данных Spark в .csv с заголовком и конкретным именем файла
Я пытаюсь экспортировать данные из фрейма данных Spark в файл .csv: df.coalesce(1)\ .write\ .format("com.databricks.spark.csv")\ .option("header", "true")\ .save(output_path) Создается файл с именем...
11770 просмотров

перебирать каждый элемент списка и переходить к функции
Я хочу перебрать каждый элемент списка и передать его функции. Это то, что я пробовал, но получаю ошибки ниже. import call_functions newObject = call_functions.call_functions_class() size_DF = newObject.descr_size(sc, dataBase) size_RDD =...
90 просмотров

Создайте Dataframe из пользовательского разделителя строк и пользовательского файла разделителя столбцов из файла dat
У меня есть файл .dat с (\ u0002\n) в качестве разделителя строк и (\ u0001) в качестве разделителя столбцов. Я могу получить только 1 запись в искровом DataFrame, когда использую этот подход....
262 просмотров

Сохранение пустого DataFrame с известной схемой (Spark 2.2.1)
Можно ли сохранить пустой DataFrame с известной схемой, чтобы схема была записана в файл, даже если в ней 0 записей? def example(spark: SparkSession, path: String, schema: StructType) = { val dataframe =...
5120 просмотров
schedule 19.01.2024

SparkR org.apache.spark.SparkException: рабочий процесс R неожиданно завершился
Я пытаюсь выполнить SparkR gapply , по сути, когда я пытаюсь запустить это с моим входным файлом, ограниченным примерно 300 тыс. строк, он работает, однако при масштабировании примерно до 1,2 млн строк я получаю следующее повторяющееся исключение в...
332 просмотров
schedule 17.02.2024

Связь от Искры к Снежинке
Я пишу это не для того, чтобы задать вопрос, а чтобы поделиться знаниями. Я использовал Spark для подключения к Snowflake. Но я не мог получить доступ к снежинке. Похоже, что что-то не так с внутренним драйвером JDBC в блоках данных. Это была...
2686 просмотров

Используйте рекурсивную подстановку для извлечения XML-документов в виде строк в pyspark
Цель состоит в том, чтобы извлечь XML-документы по заданному выражению XPath из группы текстовых файлов в виде строк. Сложность заключается в разнообразии форм, в которых могут находиться текстовые файлы. Это может быть: один файл zip / tar с...
400 просмотров

NameError: имя dbutils не определено в pyspark
Я выполняю задание pyspark в облаке databricks. Мне нужно записать некоторые из файлов csv в файловую систему databricks (dbfs) как часть этой работы, а также мне нужно использовать некоторые из собственных команд dbutils, например, #mount azure...
6381 просмотров

Чтение CSV-файлов с отсутствующими столбцами и случайным порядком столбцов
У меня есть схема, которую я хочу применить к CSV-файлам в Databricks. Файлы csv могут содержать 6 столбцов (a,b,c,d,e,f), которые могут появляться в файлах csv в случайном порядке. Также может случиться так, что один или несколько столбцов...
1693 просмотров
schedule 17.10.2022

Как изменить часовой пояс по умолчанию, используемый: spark.read.jdbc при чтении с SQL Server
Я использую Databricks Runtime 4.2 (включая Apache Spark 2.3.1, Scala 2.11) В записной книжке Scala, когда я читаю данные из SQL Server 2012 через JDBC с помощью такой команды: val data_frame = spark.read.jdbc (,,) Все столбцы DATETIME SQL...
611 просмотров
schedule 15.03.2023

Запись DataFrame из Databricks в озеро данных
Бывает, что я манипулирую некоторыми данными с помощью Azure Databricks. Такие данные находятся в хранилище озера данных Azure 1-го поколения. Я смонтировал данные в DBFS, но теперь, после преобразования данных, я хотел бы записать их обратно в свое...
6399 просмотров
schedule 28.06.2023