Вопросы по теме 'spark-dataframe'

Порядок SparkSQL DataFrame по разделам
Я использую Spark sql для выполнения запроса по моему набору данных. Результат запроса довольно мал, но все же разделен. Я хотел бы объединить полученный DataFrame и упорядочить строки по столбцу. Я пытался DataFrame result =...
4079 просмотров

В качестве имени пользователя или пароля необходимо указать идентификатор ключа доступа AWS и секретный ключ доступа (Spark, Parquet, S3).
У меня очень странная ошибка при попытке прочитать паркетный файл с s3. Я использую следующий фрагмент кода из искровой книги. package com.knx.rtb.sample import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext...
3711 просмотров

Как преобразовать DataFrame панд в DataFrame или LabeledPoint в Spark?
Я понимаю, что при работе с фреймворком данных spark вы захотите импортировать любой источник данных непосредственно как фреймворк данных spark. В моем случае мне нужно использовать функции pandas, чтобы выдуть таблицу и создать фиктивные переменные....
802 просмотров

Преобразование RDD в DataFrame в Spark с помощью Scala
у меня textRDD: org.apache.spark.rdd.RDD[(String, String)] Я хотел бы преобразовать его в DataFrame. Столбцы соответствуют заголовку и содержанию каждой страницы (строки).
1299 просмотров

объединение двух RDD Spark scala, сохраняя правую сторону
У меня есть два искровых фрейма данных со следующей структурой. Как читалось перед использованием sqlContext. itens.columns (scala command) Array[String] = Array(id_location,id_item, name, price) rdd1 [1,1,item A,10] [1,2,item b,12]...
1563 просмотров

Попытка получить данные из sharedRDD контекста apache ignite
Я пытаюсь интегрировать apache ignite с помощью Spark, и я новичок в apache ignite. Я хочу сохранить данные в распределенном кеше и получить их. Я создал фрейм данных, загрузив файл в Spark и попытавшись сохранить его в кеше с помощью...
803 просмотров
schedule 04.07.2022

как соединить фреймы данных с разным количеством строк
У меня есть два фрейма данных с разным количеством строк, например: val df = sc.parallelize(Array((0, 1.0, 0.4, 0.1), (1, 0.9, 0.3, 0.3), (2, 0.2, 0.9, 0.2),...
995 просмотров
schedule 27.03.2024

Насколько затратна операция unpersist на искровых RDD?
Мне интересно, насколько дорогостоящей может быть rdd.unpersist() операция на искровых RDD? И влияет ли настройка Storage Level на производительность этой операции? Любой тест (результаты/техника) будет очень полезен.
1016 просмотров
schedule 30.03.2023

Spark, Как можно добавить больше памяти для хранения?
Hy, У меня много раз возникает эта ошибка, когда я использую самый большой набор данных и использую MlLib (ALS) Набор данных имеет 3 столбца (пользователь, фильм и рейтинг) и 1 200 000 строк. WARN TaskSetManager: Stage 0 contains a task of...
3079 просмотров

Spark, DataFrame: применить преобразователь/оценщик к группам
У меня есть DataFrame, который выглядит следующим образом: +-----------+-----+------------+ | userID|group| features| +-----------+-----+------------+ |12462563356| 1| [5.0,43.0]| |12462563701| 2| [1.0,8.0]| |12462563701| 1|...
1212 просмотров

Обертка Pyspark для H2O POJO
Я создал модель, используя газированную воду H2O. И теперь я хотел бы применить его к огромному Spark DF (населенному разреженными векторами). Я использую python и pyspark, pysparkling. В основном мне нужно выполнить задание карты с функцией...
470 просмотров

Слияние равносекционированных фреймов данных в Spark
В Hadoop объединение/объединение больших равносекционированных наборов данных может быть выполнено без перетасовки и уменьшения фазы, просто используя соединение на стороне карты с CompositeInputFormat. Попытка выяснить, как это сделать в Spark:...
1191 просмотров

Ошибка Spark SQL insertInto() для ключа раздела
Я пытаюсь загрузить данные из S3, преобразовать их, а затем вставить в таблицу кустов с разделом. Сначала я начал с создания_даты (bigint) в качестве ключа раздела, и он работал хорошо, однако теперь, когда я пытаюсь вставить те же данные с ключом...
2310 просмотров

Spark — Генерация случайных чисел
Я написал метод, который должен учитывать случайное число для имитации распределения Бернулли. Я использую random.nextDouble для генерации числа от 0 до 1, а затем принимаю решение на основе этого значения с учетом моего параметра вероятности....
27693 просмотров

Отказано в разрешении при использовании метода saveAsTable фреймов данных SPARK
Я использую Spark 1.3 и пытаюсь создать таблицу из одного RDD. Это псевдокод: val sc = new org.apache.spark.SparkContext(conf) val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val...
2464 просмотров

Пользовательская функция агрегатора до Spark 1.5
Я новичок в Spark, и мне интересно, как сделать что-то, что довольно просто сделать с помощью Cascading framework. Предположим, у меня есть следующий набор данных: <date> <cpt_id> <mesure_type> <value> 20160603093021556...
50 просмотров

LazyStruct: обнаружены лишние байты в конце строки! Игнорирование подобных проблем
Я разрабатываю код в таблицах чтения искр SQL в Hive (HDFS). Проблема в том, что когда я загружаю свой код в оболочку spark, рекурсивно появляется следующее сообщение: «ПРЕДУПРЕЖДЕНИЕ LazyStruct: обнаружены лишние байты в конце строки!...
1238 просмотров

Использование подстановочного знака для открытия нескольких CSV-файлов Spark Scala
Привет, я говорю, что у меня есть несколько таблиц с одинаковыми заголовками, хранящимися в нескольких файлах .csv. Я хочу сделать что-то вроде этого scala> val files = sqlContext.read .format("com.databricks.spark.csv")...
1435 просмотров
schedule 22.08.2023

Улучшения производительности при сохранении Spark ORC
Я использую Spark 1.6.1 и все еще новичок в мире Spark. Я играю с сохранением файла в формате ORC. Я пытаюсь разобрать относительно большой текстовый файл (8 ГБ) в ORC. Файл обычно довольно широкий, т.е. 200+ столбцов. Типы столбцов являются...
1405 просмотров

pyspark: объединить (внешнее соединение) два фрейма данных
У меня есть следующие два фрейма данных: DF1: Id | field_A | field_B | field_C | field_D 1 | cat | 12 | black | 11 2 | dog | 128 | white | 19 3 | dog | 35 | yellow | 20 4 | dog | 21...
43368 просмотров