Статьи по теме rdd [apache-spark, scala, rdd, java, apache-spark-sql]

Вопросы по теме 'rdd'

скажем, что у меня есть текстовый файл с именами 1.txt и 2.txt. 1.txt содержит 1,9,5 2,7,4 3,8,3 а 2.txt содержит 1,g,h 2,i,j 3,k,l Итак, я присоединился к ним по их ключам (первый столбец): val one = sc.textFile("1.txt").map{...

831 просмотров

apache-spark scala rdd

23.04.2023

Назначьте конкретную машину с Apache Spark

Я совершенно новичок в вещах типа Spark и Hadoop в целом, так что простите меня, если это болезненно простой вопрос. Я пытаюсь разработать систему, которая будет использовать кластер из некоторого количества машин для выполнения первых задач в серии...

61 просмотров

java apache-spark rdd

07.04.2022

Как сравнить с картами RDD[(Int,Int)]?

Я самостоятельно реализую k-means со Spark в качестве упражнения. Для этого мне нужно сравнить 2 карты id -> cluster_id на каждом шаге. В настоящее время я делаю это, собирая их обе и сравнивая как две простые карты scala. Есть ли способ...

425 просмотров

apache-spark scala rdd

10.08.2023

извлекать данные из таблицы куста в искру и выполнять соединение на RDD

У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения. Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...

15621 просмотров

apache-spark apache-spark-sql scala rdd

10.10.2022

Как получить элемент по индексу в Spark RDD (Java)

Я знаю метод rdd.firstwfirst (), который дает мне первый элемент в RDD. Также существует метод rdd.take (num), который дает мне первые элементы num. Но разве нет возможности получить элемент по индексу? Спасибо. E

59475 просмотров

java apache-spark rdd

17.02.2022

Как использовать RDD в другом методе карты RDD?

У меня есть rdd с именем index: RDD[(String, String)], я хочу использовать index для работы с моим файлом. Это код: val get = file.map({x => val tmp = index.lookup(x).head tmp }) Вопрос в том, что я не могу использовать индекс в...

2725 просмотров

apache-spark scala rdd

23.04.2024

Как разделить Spark RDD между двумя контекстами Spark?

У меня есть кластер RMI. Каждый сервер RMI имеет контекст Spark. Есть ли способ поделиться RDD между разными контекстами Spark?

7352 просмотров

apache-spark rdd

27.07.2023

Каков результат преобразования RDD в Spark?

Кто-нибудь может объяснить, каков результат преобразования RDD ? Это новый набор данных (копия данных) или это только новый набор указателей на отфильтрованные блоки старых данных?

3558 просмотров

apache-spark rdd

15.09.2023

Почему Spark работает быстро при подсчете слов?

Тестовый пример: подсчет слов в данных 6G за 20+ секунд с помощью Spark. Я понимаю модели программирования MapReduce , FP и stream , но не мог понять, что подсчет слов происходит так быстро. Я думаю, что в данном случае это интенсивные...

1685 просмотров

streaming apache-spark bigdata rdd parallel-processing

25.12.2023

Добавление новых членов в RDD

Я работаю над исследовательским проектом, для которого я изменяю некоторые аспекты Spark для достижения своих конечных целей. Я пытаюсь добавить новые переменные-члены в класс RDD.scala, а затем получить доступ к этим переменным, когда доступ к rdd...

330 просмотров

apache-spark rdd

13.01.2024

точечный продукт комбинации элементов RDD с использованием pySpark

У меня есть RDD, где каждый элемент представляет собой кортеж формы [ (index1,SparseVector({idx1:1,idx2:1,idx3:1,...})) , (index2,SparseVector() ),... ] Я хотел бы получить скалярное произведение каждого из значений в этом RDD, используя...

1998 просмотров

apache-spark pyspark rdd combinatorics

20.04.2023

поиск значения не является членом org.apache.spark.rdd.RDD[(String, String)]

У меня возникла проблема, когда я устал компилировать свою программу scala с помощью SBT. У меня есть импорт класса, который мне нужен. Вот часть моего кода. import java.io.File import java.io.FileWriter import java.io.PrintWriter import...

1612 просмотров

apache-spark scala rdd

11.06.2024

сортировка элементов RDD

Для исследовательского проекта я попытался отсортировать элементы в RDD. Я сделал это двумя разными способами. В первом методе я применил функцию mapPartitions() к СДР, чтобы она сортировала содержимое СДР и предоставляла результирующий СДР,...

522 просмотров

apache-spark sorting rdd

16.12.2022

Как узнать, на каком воркере выполняется раздел?

Я просто пытаюсь найти способ получить местоположение раздела RDD в Spark. После вызова RDD.repartition() или PairRDD.combineByKey() возвращенный RDD разделяется. Я хотел бы знать, в каких рабочих экземплярах находятся разделы (для изучения...

497 просмотров

apache-spark rdd partitioning

20.03.2024

Как в Scala назначить функции разных типов возврата?

Я пытаюсь написать функцию, которая должна возвращать разные пары в зависимости от ввода. Я переопределил «+ - / *» в Scala для своего конкретного использования. Каждый ( +, -,* ,/) имеет три реализации на основе ввода. У меня есть RDD и Float в...

1065 просмотров

parsing scala rdd overriding

17.12.2023

Spark задает несколько условий столбца для соединения фрейма данных

Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...

119915 просмотров

apache-spark apache-spark-sql rdd

23.10.2022

PySpark: как взять образец RDD из огромного RDD?

Я искал вариант отладки, работая над функцией, которая принимает RDD в качестве параметра. Поскольку у меня есть огромный RDD, я хотел бы взять его подмножество для разработки функции. Как я могу сделать подмножество RDD? Новый образец должен...

1221 просмотров

apache-spark pyspark rdd

03.01.2024

Преобразование RDD в LabeledPoint

Если у меня есть RDD с примерно 500 столбцами и 200 миллионами строк, а RDD.columns.indexOf("target", 0) показывает Int = 77 , который говорит мне, что моя целевая зависимая переменная находится в столбце номер 77. Но у меня недостаточно знаний о...

5968 просмотров

apache-spark apache-spark-sql scala rdd apache-spark-mllib

10.11.2022

Если один раздел потерян, мы можем использовать родословную для его восстановления. Будет ли снова загружен базовый RDD?

Я прочитал статью «Отказоустойчивые распределенные наборы данных. Отказоустойчивая абстракция для кластерных вычислений в памяти». Автор сказал, что если один раздел потерян, мы можем использовать родословную для его восстановления. Однако исходного...

2359 просмотров

apache-spark rdd

15.05.2024

Apache Spark JDBCRDD использует HDFS?

Использует ли Apache Spark JDBCRDD HDFS для хранения и распространения записей базы данных на рабочие узлы? Мы используем JdbcRDD для взаимодействия с базой данных на apache spark. Нам интересно, использует ли Apache Spark HDFS для распространения и...

186 просмотров

apache-spark hadoop hdfs spark-streaming rdd

03.12.2022

Вопросы по теме 'rdd'

Похожие вопросы