Статьи по теме apache-spark-2.0

Вопросы по теме 'apache-spark-2.0'

Класс Scala case, игнорирующий импорт в оболочке Spark

Надеюсь, на этот вопрос есть очевидный ответ! Я только что обновился до Spark v2.0 и у меня возникла странная проблема с spark-shell (сборка Scala 2.11). Если я введу следующий минимальный Scala, import java.sql.Timestamp case class...

6359 просмотров

apache-spark scala apache-spark-2.0

10.03.2024

ошибка pyspark: объект «DataFrame» не имеет атрибута «карта»

Я использую pyspark 2.0 для создания объекта DataFrame, читая csv, используя: data = spark.read.csv('data.csv', header=True) Я нахожу тип данных, используя type(data) Результат pyspark.sql.dataframe.DataFrame Я пытаюсь...

12750 просмотров

apache-spark apache-spark-2.0 spark-dataframe

08.02.2023

значение toDF не является членом org.apache.spark.rdd.RDD [(Long, org.apache.spark.ml.linalg.Vector)]

Я получаю ошибку компиляции при преобразовании преобразования до LDA во фрейм данных с использованием SCALA в SPARK 2.0. Конкретный код, который вызывает ошибку, приведен ниже: val documents = PreLDAmodel.transform(mp_listing_lda_df)...

3362 просмотров

apache-spark apache-spark-2.0

30.01.2023

Hive/SparkSQL — приведение типа от даты к отметке времени в выражении

Когда я запускаю запросы Hive в Spark SQL, LHS ( timestamp ) <= RHS ( date ) для одного и того же значения '2013-09-30' не считается равным . Тогда как CAST из TIMESTAMP в RHS работает хорошо. > SELECT CASE WHEN...

210 просмотров

apache-spark apache-spark-sql hive apache-spark-2.0

14.02.2023

Как преобразовать WrappedArray[WrappedArray[Float]] в Array[Array[Float]] в spark (scala)

Я использую Spark 2.0. У меня есть столбец моего фрейма данных, содержащий WrappedArray WrappedArrays of Float. Пример строки: [[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]] Я пытаюсь преобразовать этот столбец в Array[Array[Float]] ....

14256 просмотров

arrays casting scala apache-spark-2.0 spark-dataframe

29.01.2023

Spark не запускается в локальном режиме при отключении [Возможная ошибка при обработке IPv6 в Spark??]

Проблема такая же, как описано здесь Mac ... но я не нашел решения. Раньше я также получал ошибку неправильного URI, но теперь я получаю ожидаемое имя хоста. Поэтому, когда я не подключен к Интернету, искровая оболочка не загружается в...

5169 просмотров

macos shell apache-spark apache-spark-2.0

19.05.2023

Как обрабатывать ошибки фиксации смещения с отключенным enable.auto.commit в потоковой передаче Spark с помощью Kafka?

Я использую Spark 2.0.0 с Kafka 0.10.2. У меня есть приложение, которое обрабатывает сообщения от Kafka и выполняет длительную работу. Время от времени я вижу следующее сообщение в журналах. Я понимаю, как я могу увеличить время ожидания и все...

2279 просмотров

java apache-kafka spark-streaming apache-spark-2.0

12.01.2024

Паркетная перегородка Spark: большое количество файлов

Я пытаюсь использовать искровое разбиение. Я пытался сделать что-то вроде data.write.partitionBy("key").parquet("/location") Проблема здесь: каждый раздел создает огромное количество паркетных файлов, что приводит к медленному чтению, если я...

65200 просмотров

apache-spark bigdata rdd apache-spark-2.0 spark-dataframe

06.04.2024

Остановка задания Spark Streaming через некоторое время

Есть ли какой-то способ убить задание потоковой передачи искры через некоторое время, чтобы драйвер не был потерян, а остальные API отображали задание как выполненное.

1219 просмотров

spark-streaming apache-spark-2.0

14.02.2024

Производительность UDAF по сравнению с агрегатором в Spark

Я пытаюсь написать в Spark код, ориентированный на производительность, и думаю, стоит ли мне писать Агрегатор или Пользовательская агрегатная функция (UDAF) для моих операций свертки в кадре данных. Мне нигде не удалось найти никаких данных о...

540 просмотров

performance apache-spark aggregate-functions apache-spark-2.0 spark-dataframe

04.02.2023

Невозможно сохранить RDD в HDFS в Apache Spark

Я получаю следующую ошибку при попытке сохранить RDD в HDFS 17/09/13 17:06:42 WARN TaskSetManager: Lost task 7340.0 in stage 16.0 (TID 100118, XXXXXX.com, executor 2358): java.io.IOException: Failing write. Tried pipeline recovery 5 times without...

814 просмотров

apache-spark apache-spark-2.0

05.11.2022

Spark 2.11 с Java, сохранение DataFrame в Oracle создает столбцы с двойными кавычками

Используя следующий код в Spark (Java), мы сохраняем кадр данных в Oracle, он также создает таблицу, если она не существует. Dataset<Row> someAccountDF = sparkSession.createDataFrame(impalaAccountsDF.toJavaRDD(), AccountSchema.getSchema());...

542 просмотров

java apache-spark apache-spark-dataset apache-spark-2.0 spark-dataframe

27.02.2024

Вопросы по дизайну Spark Streaming

У меня нет конкретного запроса, но вопрос дизайна. Я новичок в искрах/потоках, поэтому простите меня, если я задаю глупый вопрос. Пожалуйста, удалите его, если вопрос не подходит для этого форума. Итак, в основном у нас есть требование, когда мы...

96 просмотров

apache-spark spark-streaming apache-spark-2.0

06.06.2024

Несоответствие версии Spark с использованием зависимостей maven

Я хочу запустить простой рабочий пример, используя apache Spark. Используя локальные файлы jar в $SPARK_HOME/jars , он работает правильно, но при использовании зависимостей maven возникают ошибки: java.lang.NoSuchMethodError:...

817 просмотров

maven apache-spark apache-spark-2.0

18.04.2024

Как отсортировать каждую строку rdd в spark с помощью scala?

В моем текстовом файле есть следующие данные: 10,14,16,19,52 08,09,12,20,45 55,56,70,78,53 Я хочу отсортировать каждую строку в порядке убывания. Я пробовал приведенный ниже код val file = sc.textFile("Maximum...

784 просмотров

apache-spark scala rdd apache-spark-2.0 apache-spark-2.2

15.07.2023

Вопросы по теме 'apache-spark-2.0'

Похожие вопросы