Вопросы по теме 'spark-dataframe'
Порядок SparkSQL DataFrame по разделам
Я использую Spark sql для выполнения запроса по моему набору данных. Результат запроса довольно мал, но все же разделен.
Я хотел бы объединить полученный DataFrame и упорядочить строки по столбцу. Я пытался
DataFrame result =...
4079 просмотров
schedule
22.08.2022
В качестве имени пользователя или пароля необходимо указать идентификатор ключа доступа AWS и секретный ключ доступа (Spark, Parquet, S3).
У меня очень странная ошибка при попытке прочитать паркетный файл с s3. Я использую следующий фрагмент кода из искровой книги.
package com.knx.rtb.sample
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.SQLContext...
3711 просмотров
schedule
23.05.2023
Как преобразовать DataFrame панд в DataFrame или LabeledPoint в Spark?
Я понимаю, что при работе с фреймворком данных spark вы захотите импортировать любой источник данных непосредственно как фреймворк данных spark. В моем случае мне нужно использовать функции pandas, чтобы выдуть таблицу и создать фиктивные переменные....
802 просмотров
schedule
01.08.2023
Преобразование RDD в DataFrame в Spark с помощью Scala
у меня textRDD: org.apache.spark.rdd.RDD[(String, String)]
Я хотел бы преобразовать его в DataFrame. Столбцы соответствуют заголовку и содержанию каждой страницы (строки).
1299 просмотров
schedule
13.01.2024
объединение двух RDD Spark scala, сохраняя правую сторону
У меня есть два искровых фрейма данных со следующей структурой. Как читалось перед использованием sqlContext.
itens.columns (scala command)
Array[String] = Array(id_location,id_item, name, price)
rdd1
[1,1,item A,10]
[1,2,item b,12]...
1563 просмотров
schedule
24.08.2022
Попытка получить данные из sharedRDD контекста apache ignite
Я пытаюсь интегрировать apache ignite с помощью Spark, и я новичок в apache ignite. Я хочу сохранить данные в распределенном кеше и получить их.
Я создал фрейм данных, загрузив файл в Spark и попытавшись сохранить его в кеше с помощью...
803 просмотров
schedule
04.07.2022
как соединить фреймы данных с разным количеством строк
У меня есть два фрейма данных с разным количеством строк, например:
val df = sc.parallelize(Array((0, 1.0, 0.4, 0.1),
(1, 0.9, 0.3, 0.3),
(2, 0.2, 0.9, 0.2),...
995 просмотров
schedule
27.03.2024
Насколько затратна операция unpersist на искровых RDD?
Мне интересно, насколько дорогостоящей может быть rdd.unpersist() операция на искровых RDD? И влияет ли настройка Storage Level на производительность этой операции? Любой тест (результаты/техника) будет очень полезен.
1016 просмотров
schedule
30.03.2023
Spark, Как можно добавить больше памяти для хранения?
Hy,
У меня много раз возникает эта ошибка, когда я использую самый большой набор данных и использую MlLib (ALS)
Набор данных имеет 3 столбца (пользователь, фильм и рейтинг) и 1 200 000 строк.
WARN TaskSetManager: Stage 0 contains a task of...
3079 просмотров
schedule
03.03.2024
Spark, DataFrame: применить преобразователь/оценщик к группам
У меня есть DataFrame, который выглядит следующим образом:
+-----------+-----+------------+
| userID|group| features|
+-----------+-----+------------+
|12462563356| 1| [5.0,43.0]|
|12462563701| 2| [1.0,8.0]|
|12462563701| 1|...
1212 просмотров
schedule
04.08.2023
Обертка Pyspark для H2O POJO
Я создал модель, используя газированную воду H2O. И теперь я хотел бы применить его к огромному Spark DF (населенному разреженными векторами). Я использую python и pyspark, pysparkling. В основном мне нужно выполнить задание карты с функцией...
470 просмотров
schedule
19.07.2023
Слияние равносекционированных фреймов данных в Spark
В Hadoop объединение/объединение больших равносекционированных наборов данных может быть выполнено без перетасовки и уменьшения фазы, просто используя соединение на стороне карты с CompositeInputFormat.
Попытка выяснить, как это сделать в Spark:...
1191 просмотров
schedule
22.05.2024
Ошибка Spark SQL insertInto() для ключа раздела
Я пытаюсь загрузить данные из S3, преобразовать их, а затем вставить в таблицу кустов с разделом.
Сначала я начал с создания_даты (bigint) в качестве ключа раздела, и он работал хорошо, однако теперь, когда я пытаюсь вставить те же данные с ключом...
2310 просмотров
schedule
25.01.2023
Spark — Генерация случайных чисел
Я написал метод, который должен учитывать случайное число для имитации распределения Бернулли. Я использую random.nextDouble для генерации числа от 0 до 1, а затем принимаю решение на основе этого значения с учетом моего параметра вероятности....
27693 просмотров
schedule
06.06.2024
Отказано в разрешении при использовании метода saveAsTable фреймов данных SPARK
Я использую Spark 1.3 и пытаюсь создать таблицу из одного RDD. Это псевдокод:
val sc = new org.apache.spark.SparkContext(conf)
val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc)
import sqlContext.implicits._
val...
2464 просмотров
schedule
22.07.2023
Пользовательская функция агрегатора до Spark 1.5
Я новичок в Spark, и мне интересно, как сделать что-то, что довольно просто сделать с помощью Cascading framework.
Предположим, у меня есть следующий набор данных:
<date> <cpt_id> <mesure_type> <value>
20160603093021556...
50 просмотров
schedule
27.02.2023
LazyStruct: обнаружены лишние байты в конце строки! Игнорирование подобных проблем
Я разрабатываю код в таблицах чтения искр SQL в Hive (HDFS).
Проблема в том, что когда я загружаю свой код в оболочку spark, рекурсивно появляется следующее сообщение:
«ПРЕДУПРЕЖДЕНИЕ LazyStruct: обнаружены лишние байты в конце строки!...
1238 просмотров
schedule
14.02.2024
Использование подстановочного знака для открытия нескольких CSV-файлов Spark Scala
Привет, я говорю, что у меня есть несколько таблиц с одинаковыми заголовками, хранящимися в нескольких файлах .csv.
Я хочу сделать что-то вроде этого
scala> val files = sqlContext.read
.format("com.databricks.spark.csv")...
1435 просмотров
schedule
22.08.2023
Улучшения производительности при сохранении Spark ORC
Я использую Spark 1.6.1 и все еще новичок в мире Spark. Я играю с сохранением файла в формате ORC.
Я пытаюсь разобрать относительно большой текстовый файл (8 ГБ) в ORC. Файл обычно довольно широкий, т.е. 200+ столбцов.
Типы столбцов являются...
1405 просмотров
schedule
27.08.2023
pyspark: объединить (внешнее соединение) два фрейма данных
У меня есть следующие два фрейма данных:
DF1:
Id | field_A | field_B | field_C | field_D
1 | cat | 12 | black | 11
2 | dog | 128 | white | 19
3 | dog | 35 | yellow | 20
4 | dog | 21...
43368 просмотров
schedule
23.05.2023