Как подключиться к CFS из Spark (DataStax Enterprise)?

У нас есть доступ из spark-shell на узле с DataStax Enterprise.

В build.sbt объявлена ​​следующая зависимость:

libraryDependencies += "org.apache.spark" %% "spark-core" % ...

Когда я выполняю строку:

sc.textFile("cfs://...")

Я столкнулся с исключением:

java.io.IOException: No FileSystem for scheme: cfs

Если мы используем Spark со SPARK_MASTER (узел в DSE), мы также получаем исключение «Нет файловой системы для схемы: cfs».

Q: Как получить доступ к CFS с помощью spark?

  • мы должны изменить libraryDependencies? Может для DSE-spark есть другая сборка?
  • настройки?

person Pavel Ajtkulov    schedule 16.09.2014    source источник


Ответы (2)


ПРИМЕЧАНИЕ Я почти не понимаю, как использовать DSE/Cassandra и Spark.

ОБНОВЛЕНИЕ: в Доступ к Cassandra из Spark есть примеры использования DSE для доступа к данным Cassandra из Spark. Похоже, что есть метод sc.cassandraTable для доступа к таблицам Cassandra. Это может быть решением. Просмотрите другие ссылки, чтобы узнать об API.

Я думаю, вам следует использовать spark-cassandra-connector, который говорит на веб-сайте:

Если вы пишете приложение Spark, которому нужен доступ к Cassandra, эта библиотека для вас.

person Jacek Laskowski    schedule 16.09.2014
comment
Идея состоит в том, чтобы использовать только CFS cfs:// (похоже на HDFS), без непосредственного использования Cassandra. - person Pavel Ajtkulov; 17.09.2014

DataStax Enterprise Spark предварительно настроен для использования CFS. Итак, должно работать следующее: sh> dse spark scala> sc.textFile("cfs:/tmp/test.txt") Настройка внешней искры — долгая история, и потребуется, по крайней мере, перестроить искру для соответствующей версии Hadoop.

person Artem Aliev    schedule 12.02.2015