Статьи по теме spark-dataframe [apache-spark, apache-spark-sql, spark-dataframe, amazon-s3, parquet]

Вопросы по теме 'spark-dataframe'

Я использую Spark sql для выполнения запроса по моему набору данных. Результат запроса довольно мал, но все же разделен. Я хотел бы объединить полученный DataFrame и упорядочить строки по столбцу. Я пытался DataFrame result =...

4079 просмотров

apache-spark apache-spark-sql spark-dataframe

22.08.2022

В качестве имени пользователя или пароля необходимо указать идентификатор ключа доступа AWS и секретный ключ доступа (Spark, Parquet, S3).

У меня очень странная ошибка при попытке прочитать паркетный файл с s3. Я использую следующий фрагмент кода из искровой книги. package com.knx.rtb.sample import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SQLContext...

3711 просмотров

amazon-s3 parquet apache-spark apache-spark-sql spark-dataframe

23.05.2023

Как преобразовать DataFrame панд в DataFrame или LabeledPoint в Spark?

Я понимаю, что при работе с фреймворком данных spark вы захотите импортировать любой источник данных непосредственно как фреймворк данных spark. В моем случае мне нужно использовать функции pandas, чтобы выдуть таблицу и создать фиктивные переменные....

802 просмотров

python pandas apache-spark spark-dataframe

01.08.2023

Преобразование RDD в DataFrame в Spark с помощью Scala

у меня textRDD: org.apache.spark.rdd.RDD[(String, String)] Я хотел бы преобразовать его в DataFrame. Столбцы соответствуют заголовку и содержанию каждой страницы (строки).

1299 просмотров

apache-spark scala type-conversion rdd spark-dataframe

13.01.2024

объединение двух RDD Spark scala, сохраняя правую сторону

У меня есть два искровых фрейма данных со следующей структурой. Как читалось перед использованием sqlContext. itens.columns (scala command) Array[String] = Array(id_location,id_item, name, price) rdd1 [1,1,item A,10] [1,2,item b,12]...

1563 просмотров

apache-spark apache-spark-sql scala spark-dataframe

24.08.2022

Попытка получить данные из sharedRDD контекста apache ignite

Я пытаюсь интегрировать apache ignite с помощью Spark, и я новичок в apache ignite. Я хочу сохранить данные в распределенном кеше и получить их. Я создал фрейм данных, загрузив файл в Spark и попытавшись сохранить его в кеше с помощью...

803 просмотров

apache-spark ignite spark-dataframe

04.07.2022

как соединить фреймы данных с разным количеством строк

У меня есть два фрейма данных с разным количеством строк, например: val df = sc.parallelize(Array((0, 1.0, 0.4, 0.1), (1, 0.9, 0.3, 0.3), (2, 0.2, 0.9, 0.2),...

995 просмотров

apache-spark scala spark-dataframe

27.03.2024

Насколько затратна операция unpersist на искровых RDD?

Мне интересно, насколько дорогостоящей может быть rdd.unpersist() операция на искровых RDD? И влияет ли настройка Storage Level на производительность этой операции? Любой тест (результаты/техника) будет очень полезен.

1016 просмотров

apache-spark pyspark spark-dataframe

30.03.2023

Spark, Как можно добавить больше памяти для хранения?

Hy, У меня много раз возникает эта ошибка, когда я использую самый большой набор данных и использую MlLib (ALS) Набор данных имеет 3 столбца (пользователь, фильм и рейтинг) и 1 200 000 строк. WARN TaskSetManager: Stage 0 contains a task of...

3079 просмотров

apache-spark pyspark apache-spark-mllib spark-dataframe

03.03.2024

Spark, DataFrame: применить преобразователь/оценщик к группам

У меня есть DataFrame, который выглядит следующим образом: +-----------+-----+------------+ | userID|group| features| +-----------+-----+------------+ |12462563356| 1| [5.0,43.0]| |12462563701| 2| [1.0,8.0]| |12462563701| 1|...

1212 просмотров

apache-spark apache-spark-mllib apache-spark-ml spark-dataframe

04.08.2023

Обертка Pyspark для H2O POJO

Я создал модель, используя газированную воду H2O. И теперь я хотел бы применить его к огромному Spark DF (населенному разреженными векторами). Я использую python и pyspark, pysparkling. В основном мне нужно выполнить задание карты с функцией...

470 просмотров

apache-spark pyspark h2o py4j spark-dataframe

19.07.2023

Слияние равносекционированных фреймов данных в Spark

В Hadoop объединение/объединение больших равносекционированных наборов данных может быть выполнено без перетасовки и уменьшения фазы, просто используя соединение на стороне карты с CompositeInputFormat. Попытка выяснить, как это сделать в Spark:...

1191 просмотров

apache-spark apache-spark-sql spark-dataframe

22.05.2024

Ошибка Spark SQL insertInto() для ключа раздела

Я пытаюсь загрузить данные из S3, преобразовать их, а затем вставить в таблицу кустов с разделом. Сначала я начал с создания_даты (bigint) в качестве ключа раздела, и он работал хорошо, однако теперь, когда я пытаюсь вставить те же данные с ключом...

2310 просмотров

apache-spark apache-spark-sql spark-dataframe

25.01.2023

Spark — Генерация случайных чисел

Я написал метод, который должен учитывать случайное число для имитации распределения Бернулли. Я использую random.nextDouble для генерации числа от 0 до 1, а затем принимаю решение на основе этого значения с учетом моего параметра вероятности....

27693 просмотров

random apache-spark scala spark-dataframe

06.06.2024

Отказано в разрешении при использовании метода saveAsTable фреймов данных SPARK

Я использую Spark 1.3 и пытаюсь создать таблицу из одного RDD. Это псевдокод: val sc = new org.apache.spark.SparkContext(conf) val sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) import sqlContext.implicits._ val...

2464 просмотров

apache-spark hadoop kerberos spark-dataframe

22.07.2023

Пользовательская функция агрегатора до Spark 1.5

Я новичок в Spark, и мне интересно, как сделать что-то, что довольно просто сделать с помощью Cascading framework. Предположим, у меня есть следующий набор данных: <date> <cpt_id> <mesure_type> <value> 20160603093021556...

50 просмотров

apache-spark apache-spark-sql cascading spark-dataframe

27.02.2023

LazyStruct: обнаружены лишние байты в конце строки! Игнорирование подобных проблем

Я разрабатываю код в таблицах чтения искр SQL в Hive (HDFS). Проблема в том, что когда я загружаю свой код в оболочку spark, рекурсивно появляется следующее сообщение: «ПРЕДУПРЕЖДЕНИЕ LazyStruct: обнаружены лишние байты в конце строки!...

1238 просмотров

apache-spark apache-spark-sql spark-streaming spark-dataframe

14.02.2024

Использование подстановочного знака для открытия нескольких CSV-файлов Spark Scala

Привет, я говорю, что у меня есть несколько таблиц с одинаковыми заголовками, хранящимися в нескольких файлах .csv. Я хочу сделать что-то вроде этого scala> val files = sqlContext.read .format("com.databricks.spark.csv")...

1435 просмотров

apache-spark scala spark-dataframe

22.08.2023

Улучшения производительности при сохранении Spark ORC

Я использую Spark 1.6.1 и все еще новичок в мире Spark. Я играю с сохранением файла в формате ORC. Я пытаюсь разобрать относительно большой текстовый файл (8 ГБ) в ORC. Файл обычно довольно широкий, т.е. 200+ столбцов. Типы столбцов являются...

1405 просмотров

performance apache-spark orc spark-dataframe

27.08.2023

pyspark: объединить (внешнее соединение) два фрейма данных

У меня есть следующие два фрейма данных: DF1: Id | field_A | field_B | field_C | field_D 1 | cat | 12 | black | 11 2 | dog | 128 | white | 19 3 | dog | 35 | yellow | 20 4 | dog | 21...

43368 просмотров

python apache-spark pyspark spark-dataframe

23.05.2023

Вопросы по теме 'spark-dataframe'

Похожие вопросы