Вопросы по теме 'spark-cassandra-connector'
Итерационный запрос Spark Cassandra
Я применяю следующее через Spark Cassandra Connector:
val links = sc.textFile("linksIDs.txt")
links.map( link_id =>
{
val link_speed_records = sc.cassandraTable[Double]("freeway","records").select("speed").where("link_id=?",link_id)
average =...
148 просмотров
schedule
04.01.2024
Spark-Cassandra против Spark-Elasticsearch
Я использую Elasticsearch уже довольно давно и у меня мало опыта использования Cassandra.
Теперь у меня есть проект, в котором мы хотим использовать spark для обработки данных, но мне нужно решить, следует ли нам использовать Cassandra или...
1579 просмотров
schedule
21.12.2022
Как скопировать семейство столбцов из одного кластера cassandra в другой?
Как скопировать семейство столбцов из одного кластера cassandra в другой?
Сценарий:
У меня есть только IP-адрес хоста (как для исходного, так и для целевого кластеров), порт, имя key_space и имя column_family.
Я уже создал метаданные в...
1864 просмотров
schedule
10.12.2022
Проблема с производительностью Spark Cassandra
Я новый ученик Спарка и Кассандры. Я столкнулся с серьезной проблемой производительности. Я передаю данные из Kafka каждые 5 секунд в Spark, затем выполняю анализ данных на языке R с использованием JRI и, наконец, сохраняю данные в соответствующем...
325 просмотров
schedule
21.11.2022
Как выполнить моделирование данных Cassandra для совокупного подсчета?
Допустим, у меня есть данные о заказах клиентов, поступающие в мою службу, и я хотел бы сделать некоторые отчеты по этим данным. Все заказы клиентов сохраняются в таблице Cassandra, поэтому я могу получить все заказы для данного клиента:
TABLE...
50 просмотров
schedule
07.08.2022
Влияют ли процессы уплотнения в C* на задания Spark?
Я использую cassandra 2.1.5 (.469) со spark 1.2.1.
Я выполнил задание миграции с помощью spark для большой таблицы C * (2 034 065 959 строк) - перенес ее в другую таблицу схемы (new_table), используя:
some_mapped_rdd.saveToCassandra("keyspace",...
106 просмотров
schedule
10.01.2024
Подключиться к кассандре с помощью искры в java
Я использую cassandra 3.2.1 со искрой, я включил все необходимые банки. и я попытался подключить cassandra из java через spark, я получаю следующую ошибку,
Исключение в потоке "main" java.lang.NoSuchMethodError:...
282 просмотров
schedule
18.01.2024
Cassandra write дает очень медленную производительность с использованием Spark
У меня есть таблица cassandra с примерно 500+ миллионами записей (в 6 узлах), теперь я пытаюсь вставить данные с помощью spark-cassandra-connector в Amazon EMR
Структура таблицы
CREATE TABLE dmp.dmp_user_profiles_latest (
pid text...
1794 просмотров
schedule
02.02.2022
Экономный сервер spark-cassandra на ec2 выдает SparkException по запросу от beeline
Я установил кластер cassandra spark-hadoop на 3 узла ec2. Вчера я смог запустить сервер экономии искры на узле 0 и фактически выполнил простую инструкцию sql в beeline. Сегодня, после изменения схемы, я перезапустил комиссионный сервер, теперь я...
64 просмотров
schedule
29.09.2022
session.execute() не отражается на cassandra, когда выполняется на искровом кластере
Я запускаю искровое задание, в котором некоторые данные загружаются из таблицы cassandra. Из этих данных я делаю несколько операторов вставки и удаления. и выполнить их. (используя forEach)
boolean deleteStatus=...
180 просмотров
schedule
14.01.2024
Соединитель Spark Cassandra — предложение where
Я пытаюсь выполнить select where с помощью Datasax Cassandra Connector , но получаю следующую ошибку:
java.io.IOException: Exception during preparation of SELECT "path" FROM "tracking"."user_page_action" WHERE token("user_id") > ? AND...
595 просмотров
schedule
16.05.2022
RDD присоединиться к CassandraTable
Может ли кто-нибудь помочь мне в следующем запросе. У меня есть RDD с 5 столбцами. Я хочу присоединиться к столу в Cassandra. Я знал, что есть способ сделать это с помощью «joinWithCassandraTable».
Я где-то вижу синтаксис для его использования....
5248 просмотров
schedule
23.05.2023
Ошибка оболочки Spark 2.0 Cassandra Scala: NoClassDefFoundError
Я настроил оболочку spark 2.0 для работы с соединителем datastax cassandra.
spark-shell --packages datastax:spark-cassandra-connector:1.5.1-s_2.11
При запуске этого фрагмента в оболочке
sc.stop
import org.apache.spark
import...
244 просмотров
schedule
01.12.2022
Spark 1.6 вставляет кадр данных в Cassandra
Я пытаюсь вставить в cassandra фрейм данных.
Когда я пишу rdd.tosaveToCasssandra("keyspace","table")
Не проблема, но я не могу писать с помощью этой функции
myDataFrame.tosaveToCassandra("keyspace","table")
Я тоже пробовал, но не...
496 просмотров
schedule
01.06.2023
Apache Spark - несовместимость Cassandra Guava
Я использую Apache Spark 2.1.0, соединитель Apache Spark 2.0.0-M3 и ядро драйвера Cassandra 3.0.0. Когда я пытаюсь запустить программу, я получаю следующую ошибку:
17/01/19 10:38:27 WARN TaskSetManager: Lost task 1.0 in stage 1.0 (TID 5,...
1027 просмотров
schedule
13.11.2023
Scala — Ошибка подключения Datastax Cassandra (с включенной аутентификацией dse в кластере cassandra)
Я использую следующий код для аутентификации кластера datastax cassandra (с включенной аутентификацией dse), но получаю исключение. Может ли кто-нибудь помочь мне определить и устранить проблему,
код:
import com.datastax.driver.core.Cluster...
66 просмотров
schedule
16.09.2023
Почему при чтении набора данных из таблицы Cassandra выполнение приложения Spark занимает больше времени, чем локального файла?
У меня есть следующий код, и приложение завершается сразу после генерации результата.
def textProcess(sc: SparkContext) {
val baseRDD = sc.textFile("C:\\myDrive\\test.log")
val result = baseRDD.map { x => x }.reduce((accum,...
78 просмотров
schedule
23.10.2022
Как эффективно использовать Spark для чтения данных cassandra с горячими точками разделов?
Насколько я могу судить, Spark использует не более одной задачи на раздел cassandra при чтении из cassandra. К сожалению, у меня есть несколько разделов в кассандре, которые чрезвычайно несбалансированы (плохой первоначальный дизайн таблицы). Мне...
451 просмотров
schedule
12.06.2022
искра кафка кассандра не работает
мое потоковое приложение не сохраняет данные в cas, я пробовал разными способами использовать foreachRDD и stream.print , чтобы выяснить, почему он не работает, но он ничего не печатает. Для входных данных я использую kafka-console-продюсер. ш...
231 просмотров
schedule
28.12.2023
Настройка производительности искры и кассандры
Я изо всех сил пытаюсь настроить искру и кассандру. У меня есть 10 миллионов данных в cassandra, и я выполняю такие операции, как чтение в spark/beeline, используя spark-cassandra-connector. Но это занимает 15-20 мин. У меня 4 узла кассандры и 3...
1158 просмотров
schedule
23.11.2023