Вопросы по теме 'apache-spark-1.6'
Как выполнить модульное тестирование кода Spark Streaming?
Я использую последнюю версию Spark 1.6.0.
Посмотрел еще один пост stackoverflow Как заставить Spark Streaming подсчитывать слова в файле в модульном тесте?
Я пытаюсь использовать образец @ https://gist.github.com/emres/67b4eae86fa92df69f61...
860 просмотров
schedule
30.11.2022
Где я могу найти папку jars в Spark 1.6?
На странице загрузок Spark , если я загружаю tar-файл для версии 2.0.1 , я вижу, что он содержит некоторые файлы jar, которые я считаю полезным включить в моем приложении.
Если я загружу tar-файл для версии 1.6.2 вместо этого я не нахожу там...
6673 просмотров
schedule
27.08.2022
Как прочитать текстовый файл с разделителями-пробелами и сохранить его в Hive?
У меня есть строка, как показано ниже. Первая строка - это заголовок, а остальные - значения столбца. Я хочу создать фрейм данных (Spark 1.6 и Java7) из String и преобразовать значения в col3 и col4 как DOUBLE.
col1 col2 col3 col4 col5
val1 val2...
3490 просмотров
schedule
17.04.2022
Почему при чтении набора данных из таблицы Cassandra выполнение приложения Spark занимает больше времени, чем локального файла?
У меня есть следующий код, и приложение завершается сразу после генерации результата.
def textProcess(sc: SparkContext) {
val baseRDD = sc.textFile("C:\\myDrive\\test.log")
val result = baseRDD.map { x => x }.reduce((accum,...
78 просмотров
schedule
23.10.2022
Как загрузить модель spark.mllib без SparkContext для прогнозирования?
С Spark1.6.0 MLLib я бы построил модель (например, RandomForest) и сохранил в hdfs, а затем можно было загрузить модель randomforest из hdfs для прогнозирования без SparkContext. Теперь загрузите модель, которую мы можем использовать, следующим...
313 просмотров
schedule
16.03.2023
Ошибка при запуске функций PageRank и BFS на Graphframes в PySpark
Я новичок в Spark и изучаю его на Cloudera Distr для Hadoop (CDH). Я пытаюсь выполнить функции PageRank и BFS через Jupyter Notebook, что было инициировано с помощью следующей команды:
pyspark --packages...
381 просмотров
schedule
13.04.2022