Вопросы по теме 'rdd'
как работать с объединенным RDD
скажем, что у меня есть текстовый файл с именами 1.txt и 2.txt. 1.txt содержит
1,9,5
2,7,4
3,8,3
а 2.txt содержит
1,g,h
2,i,j
3,k,l
Итак, я присоединился к ним по их ключам (первый столбец):
val one = sc.textFile("1.txt").map{...
831 просмотров
schedule
23.04.2023
Назначьте конкретную машину с Apache Spark
Я совершенно новичок в вещах типа Spark и Hadoop в целом, так что простите меня, если это болезненно простой вопрос. Я пытаюсь разработать систему, которая будет использовать кластер из некоторого количества машин для выполнения первых задач в серии...
61 просмотров
schedule
07.04.2022
Как сравнить с картами RDD[(Int,Int)]?
Я самостоятельно реализую k-means со Spark в качестве упражнения. Для этого мне нужно сравнить 2 карты id -> cluster_id на каждом шаге. В настоящее время я делаю это, собирая их обе и сравнивая как две простые карты scala.
Есть ли способ...
425 просмотров
schedule
10.08.2023
извлекать данные из таблицы куста в искру и выполнять соединение на RDD
У меня есть две таблицы в улье/импале. Я хочу получить данные из таблицы в spark как rdds и выполнить, скажем, операцию соединения.
Я не хочу напрямую передавать запрос на соединение в моем контексте куста. Это всего лишь пример. У меня есть...
15621 просмотров
schedule
10.10.2022
Как получить элемент по индексу в Spark RDD (Java)
Я знаю метод rdd.firstwfirst (), который дает мне первый элемент в RDD.
Также существует метод rdd.take (num), который дает мне первые элементы num.
Но разве нет возможности получить элемент по индексу?
Спасибо. E
59475 просмотров
schedule
17.02.2022
Как использовать RDD в другом методе карты RDD?
У меня есть rdd с именем index: RDD[(String, String)], я хочу использовать index для работы с моим файлом. Это код:
val get = file.map({x =>
val tmp = index.lookup(x).head
tmp
})
Вопрос в том, что я не могу использовать индекс в...
2725 просмотров
schedule
23.04.2024
Как разделить Spark RDD между двумя контекстами Spark?
У меня есть кластер RMI. Каждый сервер RMI имеет контекст Spark. Есть ли способ поделиться RDD между разными контекстами Spark?
7352 просмотров
schedule
27.07.2023
Каков результат преобразования RDD в Spark?
Кто-нибудь может объяснить, каков результат преобразования RDD ? Это новый набор данных (копия данных) или это только новый набор указателей на отфильтрованные блоки старых данных?
3558 просмотров
schedule
15.09.2023
Почему Spark работает быстро при подсчете слов?
Тестовый пример: подсчет слов в данных 6G за 20+ секунд с помощью Spark.
Я понимаю модели программирования MapReduce , FP и stream , но не мог понять, что подсчет слов происходит так быстро.
Я думаю, что в данном случае это интенсивные...
1685 просмотров
schedule
25.12.2023
Добавление новых членов в RDD
Я работаю над исследовательским проектом, для которого я изменяю некоторые аспекты Spark для достижения своих конечных целей.
Я пытаюсь добавить новые переменные-члены в класс RDD.scala, а затем получить доступ к этим переменным, когда доступ к rdd...
330 просмотров
schedule
13.01.2024
точечный продукт комбинации элементов RDD с использованием pySpark
У меня есть RDD, где каждый элемент представляет собой кортеж формы
[ (index1,SparseVector({idx1:1,idx2:1,idx3:1,...})) , (index2,SparseVector() ),... ]
Я хотел бы получить скалярное произведение каждого из значений в этом RDD, используя...
1998 просмотров
schedule
20.04.2023
поиск значения не является членом org.apache.spark.rdd.RDD[(String, String)]
У меня возникла проблема, когда я устал компилировать свою программу scala с помощью SBT. У меня есть импорт класса, который мне нужен. Вот часть моего кода.
import java.io.File
import java.io.FileWriter
import java.io.PrintWriter
import...
1612 просмотров
schedule
11.06.2024
сортировка элементов RDD
Для исследовательского проекта я попытался отсортировать элементы в RDD. Я сделал это двумя разными способами.
В первом методе я применил функцию mapPartitions() к СДР, чтобы она сортировала содержимое СДР и предоставляла результирующий СДР,...
522 просмотров
schedule
16.12.2022
Как узнать, на каком воркере выполняется раздел?
Я просто пытаюсь найти способ получить местоположение раздела RDD в Spark.
После вызова RDD.repartition() или PairRDD.combineByKey() возвращенный RDD разделяется. Я хотел бы знать, в каких рабочих экземплярах находятся разделы (для изучения...
497 просмотров
schedule
20.03.2024
Как в Scala назначить функции разных типов возврата?
Я пытаюсь написать функцию, которая должна возвращать разные пары в зависимости от ввода. Я переопределил «+ - / *» в Scala для своего конкретного использования. Каждый ( +, -,* ,/) имеет три реализации на основе ввода. У меня есть RDD и Float в...
1065 просмотров
schedule
17.12.2023
Spark задает несколько условий столбца для соединения фрейма данных
Как задать больше условий столбца при объединении двух фреймов данных. Например, я хочу запустить следующее:
val Lead_all = Leads.join(Utm_Master,
Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ==...
119915 просмотров
schedule
23.10.2022
PySpark: как взять образец RDD из огромного RDD?
Я искал вариант отладки, работая над функцией, которая принимает RDD в качестве параметра. Поскольку у меня есть огромный RDD, я хотел бы взять его подмножество для разработки функции.
Как я могу сделать подмножество RDD? Новый образец должен...
1221 просмотров
schedule
03.01.2024
Преобразование RDD в LabeledPoint
Если у меня есть RDD с примерно 500 столбцами и 200 миллионами строк, а RDD.columns.indexOf("target", 0) показывает Int = 77 , который говорит мне, что моя целевая зависимая переменная находится в столбце номер 77. Но у меня недостаточно знаний о...
5968 просмотров
schedule
10.11.2022
Если один раздел потерян, мы можем использовать родословную для его восстановления. Будет ли снова загружен базовый RDD?
Я прочитал статью «Отказоустойчивые распределенные наборы данных. Отказоустойчивая абстракция для кластерных вычислений в памяти». Автор сказал, что если один раздел потерян, мы можем использовать родословную для его восстановления. Однако исходного...
2359 просмотров
schedule
15.05.2024
Apache Spark JDBCRDD использует HDFS?
Использует ли Apache Spark JDBCRDD HDFS для хранения и распространения записей базы данных на рабочие узлы? Мы используем JdbcRDD для взаимодействия с базой данных на apache spark. Нам интересно, использует ли Apache Spark HDFS для распространения и...
186 просмотров
schedule
03.12.2022