Статьи по теме apache-spark-dataset

Вопросы по теме 'apache-spark-dataset'

Я хочу отфильтровать набор данных только для того, чтобы содержать запись, которую можно найти в MySQL. Вот набор данных: dataset.show() +---+-----+ | id| name| +---+-----+ | 1| a| | 2| b| | 3| c| +---+-----+ А вот таблица в...

813 просмотров

apache-spark apache-spark-sql apache-spark-dataset

03.10.2022

Не удалось найти кодировщик для типа, хранящегося в наборе данных, при попытке выполнить flatMap для DataFrame в Spark 2.0

Я продолжаю получать следующую ошибку времени компиляции: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for...

3414 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset spark-dataframe

18.11.2023

Dataframe в набор данных, который имеет тип Any

Недавно я перешел со Spark 1.6 на Spark 2.X и хотел бы также перейти, где это возможно, с фреймов данных на наборы данных. Я пробовал такой код case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...)) Как видите,...

3584 просмотров

apache-spark dataframe apache-spark-sql apache-spark-dataset

25.03.2023

Несериализуемая ошибка SortedMap в наборе данных Spark

Кажется, что scala.collection.SortedMap не сериализуем? Простой пример кода: case class MyClass(s: scala.collection.SortedMap[String, String] = SortedMap[String, String]()) object MyClass { def apply(i: Int): MyClass = MyClass() } import...

212 просмотров

apache-spark scala apache-spark-dataset

22.03.2024

Попытка подсчитать уникальных пользователей между двумя категориями в Spark

У меня есть структура набора данных в Spark с двумя столбцами, один называется user , а другой - category . Так что таблица выглядит примерно так: +---------------+---------------+ | user| category|...

138 просмотров

java sql apache-spark apache-spark-dataset

28.10.2022

Как добавить столбец со значением в новый набор данных в Spark Java?

Итак, я создаю несколько наборов данных из Java Spark API. Эти наборы данных заполняются из таблицы кустов с помощью метода spark.sql (). Итак, после выполнения некоторых операций sql (например, соединений) у меня есть окончательный набор данных....

12028 просмотров

java apache-spark bigdata dataset apache-spark-dataset

22.10.2022

ошибка: значение перегруженного метода прогнозируется с помощью альтернатив / Double не принимает параметры

Я пытаюсь построить простую линейную модель для прогнозирования значений меток с помощью LinearRegressionWithSGD. Я преобразовал набор данных, чтобы получить функции и метки, и снова преобразовал в точки с метками, чтобы выполнить регрессию. val...

328 просмотров

apache-spark scala apache-spark-mllib linear-regression apache-spark-dataset

28.03.2024

набор данных spark из json с внутренним массивом

Я пытаюсь прочитать json в набор данных (искра 2.1.1). К сожалению, это не работает. И терпит неудачу с: Caused by: java.lang.NullPointerException: Null value appeared in non- nullable field: - field (class: "scala.Long", name: "age") Любые...

196 просмотров

json apache-spark apache-spark-sql scala apache-spark-dataset

21.10.2023

Невозможно выбрать, присоединиться к атрибуту в наборе данных Apache spark java

Мы не можем выполнить какое-либо соединение по выбору и другие операции в apachae spark java для поля uniqueidrowid. Ниже приведен код, используемый для объединения двух наборов данных. ManufacturerFileContent = ManufacturerFileContent...

133 просмотров

java apache-spark apache-spark-sql apache-spark-dataset

12.02.2024

Spark 2.11 с Java, сохранение DataFrame в Oracle создает столбцы с двойными кавычками

Используя следующий код в Spark (Java), мы сохраняем кадр данных в Oracle, он также создает таблицу, если она не существует. Dataset<Row> someAccountDF = sparkSession.createDataFrame(impalaAccountsDF.toJavaRDD(), AccountSchema.getSchema());...

542 просмотров

java apache-spark apache-spark-dataset apache-spark-2.0 spark-dataframe

27.02.2024

Spark DataFrame / Dataset Найдите наиболее частое значение для каждого ключа Эффективный способ

Проблема: у меня проблема с отображением наиболее распространенного значения ключа в искре (с использованием scala). Я сделал это с помощью RDD, но не знаю, как это сделать эффективно с DF / DS (sparksql) набор данных похож на key1 =...

5651 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

12.11.2023

Пакетная обработка набора данных Spark scala

Я пытаюсь создать партии строк Dataset в Spark. Для поддержания количества записей, отправленных в службу, я хочу группировать элементы, чтобы я мог поддерживать скорость, с которой будут отправляться данные. За, case class Person(name:String,...

3077 просмотров

apache-spark scala apache-spark-dataset spark-dataframe

29.05.2024

Производительность уникального идентификатора набора данных Spark - row_number vs monotonically_increasing_id

Я хочу назначить уникальный идентификатор строкам набора данных. Я знаю, что есть два варианта реализации: Первый вариант: import org.apache.spark.sql.expressions.Window; ds.withColumn("id",row_number().over(Window.orderBy("a column")))...

6092 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

04.10.2023

Набор данных Spark: вернуть HashMap значений с одинаковым ключом

+------+-----+ |userID|entID| +------+-----+ | 0| 5| | 0| 15| | 1| 7| | 1| 3| | 2| 3| | 2| 4| | 2| 5| | 2| 9| | 3| 25| +------+-----+ Мне нужен результат как {0->(5,15), 1->(7,3),..}...

3796 просмотров

apache-spark scala apache-spark-dataset

27.11.2023

Обработка столбцов Spark SQL

У меня есть набор данных, который ниже столбцов. df.show(); +--------+---------+---------+---------+---------+ | Col1 | Col2 | Expend1 | Expend2 | Expend3 | +--------+---------+---------+---------+---------+ | Value1 | Cvalue1 | 123 |...

973 просмотров

apache-spark dataframe apache-spark-sql apache-spark-dataset

05.11.2022

Как обрабатывать сложные данные в ArrayType с помощью функций Spark

Есть источник данных json. Вот пример одной строки: { "PrimaryAcctNumber": "account1", "AdditionalData": [ { "Addrs": [ "an address for account1", "the longest...

505 просмотров

apache-spark apache-spark-sql scala apache-spark-dataset

31.07.2022

Как удалить/отфильтровать элемент из столбца WrappedArray

У меня возникла проблема с управлением столбцом WrappedArray . Я хочу удалить/отфильтровать элемент из столбца WrappedArray в наборе данных Spark. WrappedArray содержат объекты, например, у меня есть набор данных, содержащий следующий столбец:...

759 просмотров

apache-spark apache-spark-sql apache-spark-dataset

25.05.2024

Является ли Dataset.JoinWith лучшим способом объединения двух наборов данных в Spark?

У меня есть два больших набора данных, val dataA : Dataset[TypeA] и val dataB: Dataset[TypeB] , где TypeA и TypeB расширяют Serializable . Я хочу объединить два набора данных в отдельные столбцы, поэтому где TypeA.ColumnA ==...

3512 просмотров

apache-spark scala join apache-spark-dataset

06.11.2022

Apache Spark — необходимо динамически реализовать withColumn на основе результирующей карты метаданных.

У меня есть вариант использования, когда мне нужно внести некоторые исправления в уже загруженные данные. Учитывая, что метаданные находятся в hbase с логическими первичными ключами в одном семействе столбцов и columnUpdates в другом семействе...

546 просмотров

java apache-spark apache-spark-sql apache-spark-dataset

04.10.2023

Кодировщики наборов данных Spark: kryo () vs bean ()

При работе с наборами данных в Spark нам нужно указать кодировщики для сериализации и десериализации объектов. У нас есть возможность использовать Encoders.bean(Class<T>) или Encoders.kryo(Class<T>) . Чем они отличаются и каковы...

2165 просмотров

apache-spark apache-spark-dataset encoder kryo

11.04.2022

Вопросы по теме 'apache-spark-dataset'

Похожие вопросы