Вопросы по теме 'apache-spark-2.0'
Класс Scala case, игнорирующий импорт в оболочке Spark
Надеюсь, на этот вопрос есть очевидный ответ!
Я только что обновился до Spark v2.0 и у меня возникла странная проблема с spark-shell (сборка Scala 2.11).
Если я введу следующий минимальный Scala,
import java.sql.Timestamp
case class...
6359 просмотров
schedule
10.03.2024
ошибка pyspark: объект «DataFrame» не имеет атрибута «карта»
Я использую pyspark 2.0 для создания объекта DataFrame, читая csv, используя:
data = spark.read.csv('data.csv', header=True)
Я нахожу тип данных, используя
type(data)
Результат
pyspark.sql.dataframe.DataFrame
Я пытаюсь...
12750 просмотров
schedule
08.02.2023
значение toDF не является членом org.apache.spark.rdd.RDD [(Long, org.apache.spark.ml.linalg.Vector)]
Я получаю ошибку компиляции при преобразовании преобразования до LDA во фрейм данных с использованием SCALA в SPARK 2.0. Конкретный код, который вызывает ошибку, приведен ниже:
val documents = PreLDAmodel.transform(mp_listing_lda_df)...
3362 просмотров
schedule
30.01.2023
Hive/SparkSQL — приведение типа от даты к отметке времени в выражении
Когда я запускаю запросы Hive в Spark SQL, LHS ( timestamp ) <= RHS ( date ) для одного и того же значения '2013-09-30' не считается равным . Тогда как CAST из TIMESTAMP в RHS работает хорошо.
> SELECT CASE
WHEN...
210 просмотров
schedule
14.02.2023
Как преобразовать WrappedArray[WrappedArray[Float]] в Array[Array[Float]] в spark (scala)
Я использую Spark 2.0. У меня есть столбец моего фрейма данных, содержащий WrappedArray WrappedArrays of Float.
Пример строки:
[[1.0 2.0 2.0][6.0 5.0 2.0][4.0 2.0 3.0]]
Я пытаюсь преобразовать этот столбец в Array[Array[Float]] ....
14256 просмотров
schedule
29.01.2023
Spark не запускается в локальном режиме при отключении [Возможная ошибка при обработке IPv6 в Spark??]
Проблема такая же, как описано здесь Mac
... но я не нашел решения. Раньше я также получал ошибку неправильного URI, но теперь я получаю ожидаемое имя хоста.
Поэтому, когда я не подключен к Интернету, искровая оболочка не загружается в...
5169 просмотров
schedule
19.05.2023
Как обрабатывать ошибки фиксации смещения с отключенным enable.auto.commit в потоковой передаче Spark с помощью Kafka?
Я использую Spark 2.0.0 с Kafka 0.10.2.
У меня есть приложение, которое обрабатывает сообщения от Kafka и выполняет длительную работу.
Время от времени я вижу следующее сообщение в журналах. Я понимаю, как я могу увеличить время ожидания и все...
2279 просмотров
schedule
12.01.2024
Паркетная перегородка Spark: большое количество файлов
Я пытаюсь использовать искровое разбиение. Я пытался сделать что-то вроде
data.write.partitionBy("key").parquet("/location")
Проблема здесь: каждый раздел создает огромное количество паркетных файлов, что приводит к медленному чтению, если я...
65200 просмотров
schedule
06.04.2024
Остановка задания Spark Streaming через некоторое время
Есть ли какой-то способ убить задание потоковой передачи искры через некоторое время, чтобы драйвер не был потерян, а остальные API отображали задание как выполненное.
1219 просмотров
schedule
14.02.2024
Производительность UDAF по сравнению с агрегатором в Spark
Я пытаюсь написать в Spark код, ориентированный на производительность, и думаю, стоит ли мне писать Агрегатор или Пользовательская агрегатная функция (UDAF) для моих операций свертки в кадре данных.
Мне нигде не удалось найти никаких данных о...
540 просмотров
schedule
04.02.2023
Невозможно сохранить RDD в HDFS в Apache Spark
Я получаю следующую ошибку при попытке сохранить RDD в HDFS
17/09/13 17:06:42 WARN TaskSetManager: Lost task 7340.0 in stage 16.0 (TID 100118, XXXXXX.com, executor 2358): java.io.IOException: Failing write. Tried pipeline recovery 5 times without...
814 просмотров
schedule
05.11.2022
Spark 2.11 с Java, сохранение DataFrame в Oracle создает столбцы с двойными кавычками
Используя следующий код в Spark (Java), мы сохраняем кадр данных в Oracle, он также создает таблицу, если она не существует.
Dataset<Row> someAccountDF = sparkSession.createDataFrame(impalaAccountsDF.toJavaRDD(), AccountSchema.getSchema());...
542 просмотров
schedule
27.02.2024
Вопросы по дизайну Spark Streaming
У меня нет конкретного запроса, но вопрос дизайна. Я новичок в искрах/потоках, поэтому простите меня, если я задаю глупый вопрос. Пожалуйста, удалите его, если вопрос не подходит для этого форума.
Итак, в основном у нас есть требование, когда мы...
96 просмотров
schedule
06.06.2024
Несоответствие версии Spark с использованием зависимостей maven
Я хочу запустить простой рабочий пример, используя apache Spark. Используя локальные файлы jar в $SPARK_HOME/jars , он работает правильно, но при использовании зависимостей maven возникают ошибки:
java.lang.NoSuchMethodError:...
817 просмотров
schedule
18.04.2024
Как отсортировать каждую строку rdd в spark с помощью scala?
В моем текстовом файле есть следующие данные:
10,14,16,19,52
08,09,12,20,45
55,56,70,78,53
Я хочу отсортировать каждую строку в порядке убывания. Я пробовал приведенный ниже код
val file = sc.textFile("Maximum...
784 просмотров
schedule
15.07.2023