Используя кластер Google Dataproc Spark, моя сборочная банка sbt может получить доступ к Cassandra через SparkContext.
Однако, когда я пытаюсь получить доступ через sqlContext, я получаю классы spark sql, не найденные в удаленном кластере, хотя я считаю, что кластер dataproc должен быть подготовлен для spark sql.
java.lang.NoClassDefFoundError: org/apache/spark/sql/types/UTF8String$
at org.apache.spark.sql.cassandra.CassandraSQLRow$$anonfun$fromJavaDriverRow$1.apply$mcVI$sp(CassandraSQLRow.scala:50)
at scala.collection.immutable.Range.foreach$mVc$sp(Range.scala
мой sbt-файл:
libraryDependencies ++= Seq(
"org.apache.spark" %% "spark-core" % "1.5.0" % "provided",
"org.apache.spark" %% "spark-sql" % "1.5.0" % "provided",
"com.datastax.spark" %% "spark-cassandra-connector" % "1.4.0"
)
Отключение «при условии» на spark-sql помещает меня в ад слияния дубликатов jar.
Спасибо за любую помощь.