Вопросы по теме 'apache-spark-1.6'

Как выполнить модульное тестирование кода Spark Streaming?
Я использую последнюю версию Spark 1.6.0. Посмотрел еще один пост stackoverflow Как заставить Spark Streaming подсчитывать слова в файле в модульном тесте? Я пытаюсь использовать образец @ https://gist.github.com/emres/67b4eae86fa92df69f61...
860 просмотров

Где я могу найти папку jars в Spark 1.6?
На странице загрузок Spark , если я загружаю tar-файл для версии 2.0.1 , я вижу, что он содержит некоторые файлы jar, которые я считаю полезным включить в моем приложении. Если я загружу tar-файл для версии 1.6.2 вместо этого я не нахожу там...
6673 просмотров
schedule 27.08.2022

Как прочитать текстовый файл с разделителями-пробелами и сохранить его в Hive?
У меня есть строка, как показано ниже. Первая строка - это заголовок, а остальные - значения столбца. Я хочу создать фрейм данных (Spark 1.6 и Java7) из String и преобразовать значения в col3 и col4 как DOUBLE. col1 col2 col3 col4 col5 val1 val2...
3490 просмотров

Почему при чтении набора данных из таблицы Cassandra выполнение приложения Spark занимает больше времени, чем локального файла?
У меня есть следующий код, и приложение завершается сразу после генерации результата. def textProcess(sc: SparkContext) { val baseRDD = sc.textFile("C:\\myDrive\\test.log") val result = baseRDD.map { x => x }.reduce((accum,...
78 просмотров

Как загрузить модель spark.mllib без SparkContext для прогнозирования?
С Spark1.6.0 MLLib я бы построил модель (например, RandomForest) и сохранил в hdfs, а затем можно было загрузить модель randomforest из hdfs для прогнозирования без SparkContext. Теперь загрузите модель, которую мы можем использовать, следующим...
313 просмотров

Ошибка при запуске функций PageRank и BFS на Graphframes в PySpark
Я новичок в Spark и изучаю его на Cloudera Distr для Hadoop (CDH). Я пытаюсь выполнить функции PageRank и BFS через Jupyter Notebook, что было инициировано с помощью следующей команды: pyspark --packages...
381 просмотров