Я новый ученик Спарка и Кассандры. Я столкнулся с серьезной проблемой производительности. Я передаю данные из Kafka каждые 5 секунд в Spark, затем выполняю анализ данных на языке R с использованием JRI и, наконец, сохраняю данные в соответствующем семействе столбцов Cassandra. Продолжительность времени (в миллисекундах) для сохранения данных в Cassandra очень быстро увеличивается с количеством входных запросов [каждый запрос составляет 200 КБ].
Код искры:
sessionData.foreachRDD(new Function<JavaRDD<NormalizedData>, Void>() {
public Void call(JavaRDD<NormalizedData> rdd) {
System.out.println("step-3 " + System.currentTimeMillis());
javaFunctions(rdd).writerBuilder("keyspace",normalized_data",mapToRow(NormalizedData.class)).saveToCassandra();
System.out.println("step-4 " + System.currentTimeMillis());}}