Вопросы по теме 'spark-avro'

Преобразование Xml в Avro из Kafka в hdfs с помощью потоковой передачи искры или потока
Я хочу преобразовать файлы xml в формат avro. Данные будут в формате xml и сначала попадут в тему kafka. Затем я могу использовать поток или искровую потоковую передачу для приема и преобразования из xml в avro и размещения файлов в hdfs. У меня...
1156 просмотров

Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: /// var / table уже существует
Я пытаюсь найти источник ошибки в Spark 2.0.0, у меня есть карта, которая содержит имена таблиц в качестве ключей и фрейм данных в качестве значения, я просматриваю ее и в конце использую spark-avro (3.0.0 -preview2) для записи всего в каталоги S3....
1857 просмотров

Преобразование данных для поля с помощью AVRO
Я новичок в АВРО. Мы начали использовать схему AVRO для чтения данных. Теперь у нас есть вариант использования, когда мне нужно обрезать данные при чтении. Предположим, моя авро схема такая { "name": "table", "namepsace": "csd",...
420 просмотров
schedule 25.08.2023

Как сохранить сложные json или сложные объекты как паркет в Spark?
Я новичок в Spark, и я пытаюсь выяснить, есть ли способ сохранить сложные объекты (вложенные) или сложные jsons как Parquet в Spark. Мне известно о Kite SDK, но я понимаю, что он использует Map/Reduce. Я огляделся, но не смог найти решение....
5422 просмотров
schedule 01.10.2023

скопировать схему avro одного фрейма данных в другой-pyspark
У меня есть набор данных A со схемой A, а также набор данных B со схемой B. Оба набора данных A и B в основном похожи (имеют одинаковые столбцы, но типы данных различаются только для нескольких), но имеют незначительные различия. Один пример — столбец...
65 просмотров
schedule 14.05.2023

org.apache.avro.UnresolvedUnionException: не в объединении [{type:bytes,logicalType:decimal,precision:18,scale:4},null]: 0,0000
Я пытаюсь прочитать данные, хранящиеся в таблице кустов в s3, преобразовать их в формат Avro, а затем использовать записи Avro для создания конечного объекта и отправить его в тему кафки. В объекте, который я пытаюсь опубликовать, у меня есть...
422 просмотров
schedule 13.08.2022

Применение схемы Avro (.avsc) в Pyspark
Может ли кто-нибудь помочь мне прочитать схему avro (.avsc) через Pyspark и применить ее при записи кадра данных в целевое хранилище? Все мои схемы таблиц targetr предоставляются в виде файлов .avsc, и мне нужно предоставить эту пользовательскую...
188 просмотров
schedule 12.01.2024