Вопросы по теме 'apache-spark-dataset'

Ошибка в Dataset.filter в Spark SQL
Я хочу отфильтровать набор данных только для того, чтобы содержать запись, которую можно найти в MySQL. Вот набор данных: dataset.show() +---+-----+ | id| name| +---+-----+ | 1| a| | 2| b| | 3| c| +---+-----+ А вот таблица в...
813 просмотров

Не удалось найти кодировщик для типа, хранящегося в наборе данных, при попытке выполнить flatMap для DataFrame в Spark 2.0
Я продолжаю получать следующую ошибку времени компиляции: Unable to find encoder for type stored in a Dataset. Primitive types (Int, String, etc) and Product types (case classes) are supported by importing spark.implicits._ Support for...
3414 просмотров

Dataframe в набор данных, который имеет тип Any
Недавно я перешел со Spark 1.6 на Spark 2.X и хотел бы также перейти, где это возможно, с фреймов данных на наборы данных. Я пробовал такой код case class MyClass(a : Any, ...) val df = ... df.map(x => MyClass(x.get(0), ...)) Как видите,...
3584 просмотров

Несериализуемая ошибка SortedMap в наборе данных Spark
Кажется, что scala.collection.SortedMap не сериализуем? Простой пример кода: case class MyClass(s: scala.collection.SortedMap[String, String] = SortedMap[String, String]()) object MyClass { def apply(i: Int): MyClass = MyClass() } import...
212 просмотров

Попытка подсчитать уникальных пользователей между двумя категориями в Spark
У меня есть структура набора данных в Spark с двумя столбцами, один называется user , а другой - category . Так что таблица выглядит примерно так: +---------------+---------------+ | user| category|...
138 просмотров

Как добавить столбец со значением в новый набор данных в Spark Java?
Итак, я создаю несколько наборов данных из Java Spark API. Эти наборы данных заполняются из таблицы кустов с помощью метода spark.sql (). Итак, после выполнения некоторых операций sql (например, соединений) у меня есть окончательный набор данных....
12028 просмотров

ошибка: значение перегруженного метода прогнозируется с помощью альтернатив / Double не принимает параметры
Я пытаюсь построить простую линейную модель для прогнозирования значений меток с помощью LinearRegressionWithSGD. Я преобразовал набор данных, чтобы получить функции и метки, и снова преобразовал в точки с метками, чтобы выполнить регрессию. val...
328 просмотров

набор данных spark из json с внутренним массивом
Я пытаюсь прочитать json в набор данных (искра 2.1.1). К сожалению, это не работает. И терпит неудачу с: Caused by: java.lang.NullPointerException: Null value appeared in non- nullable field: - field (class: "scala.Long", name: "age") Любые...
196 просмотров

Невозможно выбрать, присоединиться к атрибуту в наборе данных Apache spark java
Мы не можем выполнить какое-либо соединение по выбору и другие операции в apachae spark java для поля uniqueidrowid. Ниже приведен код, используемый для объединения двух наборов данных. ManufacturerFileContent = ManufacturerFileContent...
133 просмотров

Spark 2.11 с Java, сохранение DataFrame в Oracle создает столбцы с двойными кавычками
Используя следующий код в Spark (Java), мы сохраняем кадр данных в Oracle, он также создает таблицу, если она не существует. Dataset<Row> someAccountDF = sparkSession.createDataFrame(impalaAccountsDF.toJavaRDD(), AccountSchema.getSchema());...
542 просмотров

Spark DataFrame / Dataset Найдите наиболее частое значение для каждого ключа Эффективный способ
Проблема: у меня проблема с отображением наиболее распространенного значения ключа в искре (с использованием scala). Я сделал это с помощью RDD, но не знаю, как это сделать эффективно с DF / DS (sparksql) набор данных похож на key1 =...
5651 просмотров

Пакетная обработка набора данных Spark scala
Я пытаюсь создать партии строк Dataset в Spark. Для поддержания количества записей, отправленных в службу, я хочу группировать элементы, чтобы я мог поддерживать скорость, с которой будут отправляться данные. За, case class Person(name:String,...
3077 просмотров

Производительность уникального идентификатора набора данных Spark - row_number vs monotonically_increasing_id
Я хочу назначить уникальный идентификатор строкам набора данных. Я знаю, что есть два варианта реализации: Первый вариант: import org.apache.spark.sql.expressions.Window; ds.withColumn("id",row_number().over(Window.orderBy("a column")))...
6092 просмотров

Набор данных Spark: вернуть HashMap значений с одинаковым ключом
+------+-----+ |userID|entID| +------+-----+ | 0| 5| | 0| 15| | 1| 7| | 1| 3| | 2| 3| | 2| 4| | 2| 5| | 2| 9| | 3| 25| +------+-----+ Мне нужен результат как {0->(5,15), 1->(7,3),..}...
3796 просмотров

Обработка столбцов Spark SQL
У меня есть набор данных, который ниже столбцов. df.show(); +--------+---------+---------+---------+---------+ | Col1 | Col2 | Expend1 | Expend2 | Expend3 | +--------+---------+---------+---------+---------+ | Value1 | Cvalue1 | 123 |...
973 просмотров

Как обрабатывать сложные данные в ArrayType с помощью функций Spark
Есть источник данных json. Вот пример одной строки: { "PrimaryAcctNumber": "account1", "AdditionalData": [ { "Addrs": [ "an address for account1", "the longest...
505 просмотров

Как удалить/отфильтровать элемент из столбца WrappedArray
У меня возникла проблема с управлением столбцом WrappedArray . Я хочу удалить/отфильтровать элемент из столбца WrappedArray в наборе данных Spark. WrappedArray содержат объекты, например, у меня есть набор данных, содержащий следующий столбец:...
759 просмотров

Является ли Dataset.JoinWith лучшим способом объединения двух наборов данных в Spark?
У меня есть два больших набора данных, val dataA : Dataset[TypeA] и val dataB: Dataset[TypeB] , где TypeA и TypeB расширяют Serializable . Я хочу объединить два набора данных в отдельные столбцы, поэтому где TypeA.ColumnA ==...
3512 просмотров

Apache Spark — необходимо динамически реализовать withColumn на основе результирующей карты метаданных.
У меня есть вариант использования, когда мне нужно внести некоторые исправления в уже загруженные данные. Учитывая, что метаданные находятся в hbase с логическими первичными ключами в одном семействе столбцов и columnUpdates в другом семействе...
546 просмотров

Кодировщики наборов данных Spark: kryo () vs bean ()
При работе с наборами данных в Spark нам нужно указать кодировщики для сериализации и десериализации объектов. У нас есть возможность использовать Encoders.bean(Class<T>) или Encoders.kryo(Class<T>) . Чем они отличаются и каковы...
2165 просмотров