Вопросы по теме 'rdd'

как работать с объединенным RDD
скажем, что у меня есть текстовый файл с именами 1.txt и 2.txt. 1.txt содержит 1,9,5 2,7,4 3,8,3 а 2.txt содержит 1,g,h 2,i,j 3,k,l Итак, я присоединился к ним по их ключам (первый столбец): val one = sc.textFile("1.txt").map{...
831 просмотров
schedule 23.04.2023

Назначьте конкретную машину с Apache Spark
Я совершенно новичок в вещах типа Spark и Hadoop в целом, так что простите меня, если это болезненно простой вопрос. Я пытаюсь разработать систему, которая будет использовать кластер из некоторого количества машин для выполнения первых задач в серии...
61 просмотров
schedule 07.04.2022

Как сравнить с картами RDD[(Int,Int)]?
Я самостоятельно реализую k-means со Spark в качестве упражнения. Для этого мне нужно сравнить 2 карты id -> cluster_id на каждом шаге. В настоящее время я делаю это, собирая их обе и сравнивая как две простые карты scala. Есть ли способ...
425 просмотров
schedule 10.08.2023

извлекать данные из таблицы куста в искру и выполнять соединение на RDD
У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения. Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...
15621 просмотров
schedule 10.10.2022

Как получить элемент по индексу в Spark RDD (Java)
Я знаю метод rdd.firstwfirst (), который дает мне первый элемент в RDD. Также существует метод rdd.take (num), который дает мне первые элементы num. Но разве нет возможности получить элемент по индексу? Спасибо. E
59475 просмотров
schedule 17.02.2022

Как использовать RDD в другом методе карты RDD?
У меня есть rdd с именем index: RDD[(String, String)], я хочу использовать index для работы с моим файлом. Это код: val get = file.map({x => val tmp = index.lookup(x).head tmp }) Вопрос в том, что я не могу использовать индекс в...
2725 просмотров
schedule 23.04.2024

Как разделить Spark RDD между двумя контекстами Spark?
У меня есть кластер RMI. Каждый сервер RMI имеет контекст Spark. Есть ли способ поделиться RDD между разными контекстами Spark?
7352 просмотров
schedule 27.07.2023

Каков результат преобразования RDD в Spark?
Кто-нибудь может объяснить, каков результат преобразования RDD ? Это новый набор данных (копия данных) или это только новый набор указателей на отфильтрованные блоки старых данных?
3558 просмотров
schedule 15.09.2023

Почему Spark работает быстро при подсчете слов?
Тестовый пример: подсчет слов в данных 6G за 20+ секунд с помощью Spark. Я понимаю модели программирования MapReduce , FP и stream , но не мог понять, что подсчет слов происходит так быстро. Я думаю, что в данном случае это интенсивные...
1685 просмотров

Добавление новых членов в RDD
Я работаю над исследовательским проектом, для которого я изменяю некоторые аспекты Spark для достижения своих конечных целей. Я пытаюсь добавить новые переменные-члены в класс RDD.scala, а затем получить доступ к этим переменным, когда доступ к rdd...
330 просмотров
schedule 13.01.2024

точечный продукт комбинации элементов RDD с использованием pySpark
У меня есть RDD, где каждый элемент представляет собой кортеж формы [ (index1,SparseVector({idx1:1,idx2:1,idx3:1,...})) , (index2,SparseVector() ),... ] Я хотел бы получить скалярное произведение каждого из значений в этом RDD, используя...
1998 просмотров
schedule 20.04.2023

поиск значения не является членом org.apache.spark.rdd.RDD[(String, String)]
У меня возникла проблема, когда я устал компилировать свою программу scala с помощью SBT. У меня есть импорт класса, который мне нужен. Вот часть моего кода. import java.io.File import java.io.FileWriter import java.io.PrintWriter import...
1612 просмотров
schedule 11.06.2024

сортировка элементов RDD
Для исследовательского проекта я попытался отсортировать элементы в RDD. Я сделал это двумя разными способами. В первом методе я применил функцию mapPartitions() к СДР, чтобы она сортировала содержимое СДР и предоставляла результирующий СДР,...
522 просмотров
schedule 16.12.2022

Как узнать, на каком воркере выполняется раздел?
Я просто пытаюсь найти способ получить местоположение раздела RDD в Spark. После вызова RDD.repartition() или PairRDD.combineByKey() возвращенный RDD разделяется. Я хотел бы знать, в каких рабочих экземплярах находятся разделы (для изучения...
497 просмотров
schedule 20.03.2024

Как в Scala назначить функции разных типов возврата?
Я пытаюсь написать функцию, которая должна возвращать разные пары в зависимости от ввода. Я переопределил «+ - / *» в Scala для своего конкретного использования. Каждый ( +, -,* ,/) имеет три реализации на основе ввода. У меня есть RDD и Float в...
1065 просмотров
schedule 17.12.2023

Spark задает несколько условий столбца для соединения фрейма данных
Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...
119915 просмотров
schedule 23.10.2022

PySpark: как взять образец RDD из огромного RDD?
Я искал вариант отладки, работая над функцией, которая принимает RDD в качестве параметра. Поскольку у меня есть огромный RDD, я хотел бы взять его подмножество для разработки функции. Как я могу сделать подмножество RDD? Новый образец должен...
1221 просмотров
schedule 03.01.2024

Преобразование RDD в LabeledPoint
Если у меня есть RDD с примерно 500 столбцами и 200 миллионами строк, а RDD.columns.indexOf("target", 0) показывает Int = 77 , который говорит мне, что моя целевая зависимая переменная находится в столбце номер 77. Но у меня недостаточно знаний о...
5968 просмотров

Если один раздел потерян, мы можем использовать родословную для его восстановления. Будет ли снова загружен базовый RDD?
Я прочитал статью «Отказоустойчивые распределенные наборы данных. Отказоустойчивая абстракция для кластерных вычислений в памяти». Автор сказал, что если один раздел потерян, мы можем использовать родословную для его восстановления. Однако исходного...
2359 просмотров
schedule 15.05.2024

Apache Spark JDBCRDD использует HDFS?
Использует ли Apache Spark JDBCRDD HDFS для хранения и распространения записей базы данных на рабочие узлы? Мы используем JdbcRDD для взаимодействия с базой данных на apache spark. Нам интересно, использует ли Apache Spark HDFS для распространения и...
186 просмотров