Вопросы по теме 'apache-spark-2.0'

Класс Scala case, игнорирующий импорт в оболочке Spark
Надеюсь, на этот вопрос есть очевидный ответ! Я только что обновился до Spark v2.0 и у меня возникла странная проблема с spark-shell (сборка Scala 2.11). Если я введу следующий минимальный Scala, import java.sql.Timestamp case class...
6359 просмотров
schedule 10.03.2024

ошибка pyspark: объект «DataFrame» не имеет атрибута «карта»
Я использую pyspark 2.0 для создания объекта DataFrame, читая csv, используя: data = spark.read.csv('data.csv', header=True) Я нахожу тип данных, используя type(data) Результат pyspark.sql.dataframe.DataFrame Я пытаюсь...
12750 просмотров

значение toDF не является членом org.apache.spark.rdd.RDD [(Long, org.apache.spark.ml.linalg.Vector)]
Я получаю ошибку компиляции при преобразовании преобразования до LDA во фрейм данных с использованием SCALA в SPARK 2.0. Конкретный код, который вызывает ошибку, приведен ниже: val documents = PreLDAmodel.transform(mp_listing_lda_df)...
3362 просмотров
schedule 30.01.2023

Hive/SparkSQL — приведение типа от даты к отметке времени в выражении
Когда я запускаю запросы Hive в Spark SQL, LHS ( timestamp ) <= RHS ( date ) для одного и того же значения '2013-09-30' не считается равным . Тогда как CAST из TIMESTAMP в RHS работает хорошо. > SELECT CASE WHEN...
210 просмотров

Как преобразовать WrappedArray[WrappedArray[Float]] в Array[Array[Float]] в spark (scala)
Я использую Spark 2.0. У меня есть столбец моего фрейма данных, содержащий WrappedArray WrappedArrays of Float. Пример строки: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]] Я пытаюсь преобразовать этот столбец в Array[Array[Float]] ....
14256 просмотров

Spark не запускается в локальном режиме при отключении [Возможная ошибка при обработке IPv6 в Spark??]
Проблема такая же, как описано здесь Mac ... но я не нашел решения. Раньше я также получал ошибку неправильного URI, но теперь я получаю ожидаемое имя хоста. Поэтому, когда я не подключен к Интернету, искровая оболочка не загружается в...
5169 просмотров

Как обрабатывать ошибки фиксации смещения с отключенным enable.auto.commit в потоковой передаче Spark с помощью Kafka?
Я использую Spark 2.0.0 с Kafka 0.10.2. У меня есть приложение, которое обрабатывает сообщения от Kafka и выполняет длительную работу. Время от времени я вижу следующее сообщение в журналах. Я понимаю, как я могу увеличить время ожидания и все...
2279 просмотров

Паркетная перегородка Spark: большое количество файлов
Я пытаюсь использовать искровое разбиение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location") Проблема здесь: каждый раздел создает огромное количество паркетных файлов, что приводит к медленному чтению, если я...
65200 просмотров

Остановка задания Spark Streaming через некоторое время
Есть ли какой-то способ убить задание потоковой передачи искры через некоторое время, чтобы драйвер не был потерян, а остальные API отображали задание как выполненное.
1219 просмотров
schedule 14.02.2024

Производительность UDAF по сравнению с агрегатором в Spark
Я пытаюсь написать в Spark код, ориентированный на производительность, и думаю, стоит ли мне писать Агрегатор или Пользовательская агрегатная функция (UDAF) для моих операций свертки в кадре данных. Мне нигде не удалось найти никаких данных о...
540 просмотров

Невозможно сохранить RDD в HDFS в Apache Spark
Я получаю следующую ошибку при попытке сохранить RDD в HDFS 17/09/13 17:06:42 WARN TaskSetManager: Lost task 7340.0 in stage 16.0 (TID 100118, XXXXXX.com, executor 2358): java.io.IOException: Failing write. Tried pipeline recovery 5 times without...
814 просмотров
schedule 05.11.2022

Spark 2.11 с Java, сохранение DataFrame в Oracle создает столбцы с двойными кавычками
Используя следующий код в Spark (Java), мы сохраняем кадр данных в Oracle, он также создает таблицу, если она не существует. Dataset<Row> someAccountDF = sparkSession.createDataFrame(impalaAccountsDF.toJavaRDD(), AccountSchema.getSchema());...
542 просмотров

Вопросы по дизайну Spark Streaming
У меня нет конкретного запроса, но вопрос дизайна. Я новичок в искрах/потоках, поэтому простите меня, если я задаю глупый вопрос. Пожалуйста, удалите его, если вопрос не подходит для этого форума. Итак, в основном у нас есть требование, когда мы...
96 просмотров

Несоответствие версии Spark с использованием зависимостей maven
Я хочу запустить простой рабочий пример, используя apache Spark. Используя локальные файлы jar в $SPARK_HOME/jars , он работает правильно, но при использовании зависимостей maven возникают ошибки: java.lang.NoSuchMethodError:...
817 просмотров
schedule 18.04.2024

Как отсортировать каждую строку rdd в spark с помощью scala?
В моем текстовом файле есть следующие данные: 10,14,16,19,52 08,09,12,20,45 55,56,70,78,53 Я хочу отсортировать каждую строку в порядке убывания. Я пробовал приведенный ниже код val file = sc.textFile("Maximum...
784 просмотров