Статьи по теме apache-spark

Публикации по теме 'apache-spark'

Apache Spark: трюк — 2

Маленькая хитрость, небольшое улучшение. Предположим, у нас есть один набор данных с одним столбцом даты. Мы хотим знать диапазон дат — минимальную и максимальную дату всех записей. Вот код для этого: In [1]: import pyspark.sql.functions as F In [2]: U.show_info( ...: df_final.select( ...: F.array_join( ...: F.array( ...: F.min("sale_date").alias("min_sale_date"), ...:..

Apache Spark для науки о данных — Как установить и начать работу с PySpark

Установите PySpark локально и загрузите свой первый набор данных — требуется всего 5 минут В мире больших данных необходимо знать, как эффективно обрабатывать огромные наборы данных. Вот тут-то и появляется Apache Spark. Это платформа обработки данных, используемая для выполнения задач обработки данных в огромных наборах данных. Spark также позволяет распределять задачи обработки данных между несколькими компьютерами. Spark написан на Scala, но вам не нужно знать Scala, чтобы..

Управление памятью Spark [до версии 1.6.0]

Модель управления памятью Spark, описанная в этой статье, устарела в Apache Spark v1.6.0+, ссылку на новую модель памяти можно найти в этой статье . Вот схема распределения памяти Spark внутри кучи JVM в соответствии с моделью управления памятью до Apache Spark v1.6.0: Давайте разберемся, что это за разные компоненты один за другим: Безопасная куча . Любой процесс Spark, работающий в кластере или на локальном компьютере, является процессом JVM. Как и для любого процесса JVM,..

Как передать данные UPSERT в реляционную базу данных с помощью Apache Spark: Часть 2

Как передать данные UPSERT в реляционную базу данных с помощью Apache Spark: Часть 2 На мой взгляд, Database UPSERT не будет полным без разговоров о функциональности MERGE. В этом блоге мы рассмотрим, как можно выполнить UPSERT с помощью команды MERGE. SELECT из таблицы базы данных, а затем INSERT или UPDATE в зависимости от условия - традиционный способ обработки данных UPSERT. С помощью оператора MERGE вы можете объединить эти операторы в один и улучшить общую производительность..

Применение машинного обучения к данным в BigQuery с использованием Apache Spark

Облачная платформа Google имеет надежный набор инструментов для анализа больших данных, позволяющих извлечь максимальную пользу из ваших данных. Одним из ценных предложений является возможность беспрепятственного извлечения ценной информации из данных, хранящихся на платформе хранения BigQuery, с помощью инструментов машинного обучения, работающих в кластерах Dataproc. В этой статье я кратко опишу, как я разработал собственный код для чтения данных из BigQuery, запуска алгоритма..

Spark 3.0: первый практический подход с адаптивным выполнением запросов (часть 1)

Apache Spark - это среда распределенной обработки данных, которая благодаря своим возможностям подходит для любого контекста больших данных . Несмотря на то, что это относительно недавний продукт (первая лицензия BSD с открытым исходным кодом была выпущена в 2010 году, она была подарена Apache Foundation) 18 июня была выпущена третья основная версия, которая представляет несколько новых функций, включая адаптивное выполнение запросов (AQE). ) , о котором мы и поговорим в этой статье...

Мультиклассовая классификация несбалансированных данных с использованием алгоритма случайного леса в Spark

Мультиклассовая классификация несбалансированных данных с использованием алгоритма случайного леса в Spark Я не знаю, относитесь ли вы к тому типу людей, которые зависимы от алгоритма машинного обучения и используете свой любимый, пока он применим к проблеме. Но я такой фанат машинного обучения. Мой любимый алгоритм — Random Forest, и у меня есть свои причины для этого предпочтения. Прежде всего, Random Forest — один из самых простых алгоритмов среди всех других алгоритмов машинного..