Вопросы по теме 'spark-avro'
Преобразование Xml в Avro из Kafka в hdfs с помощью потоковой передачи искры или потока
Я хочу преобразовать файлы xml в формат avro. Данные будут в формате xml и сначала попадут в тему kafka. Затем я могу использовать поток или искровую потоковую передачу для приема и преобразования из xml в avro и размещения файлов в hdfs. У меня...
1156 просмотров
schedule
09.07.2022
Amazon EMR и S3, org.apache.spark.sql.AnalysisException: путь s3: /// var / table уже существует
Я пытаюсь найти источник ошибки в Spark 2.0.0, у меня есть карта, которая содержит имена таблиц в качестве ключей и фрейм данных в качестве значения, я просматриваю ее и в конце использую spark-avro (3.0.0 -preview2) для записи всего в каталоги S3....
1857 просмотров
schedule
23.10.2022
Преобразование данных для поля с помощью AVRO
Я новичок в АВРО. Мы начали использовать схему AVRO для чтения данных.
Теперь у нас есть вариант использования, когда мне нужно обрезать данные при чтении.
Предположим, моя авро схема такая
{
"name": "table",
"namepsace": "csd",...
420 просмотров
schedule
25.08.2023
Как сохранить сложные json или сложные объекты как паркет в Spark?
Я новичок в Spark, и я пытаюсь выяснить, есть ли способ сохранить сложные объекты (вложенные) или сложные jsons как Parquet в Spark. Мне известно о Kite SDK, но я понимаю, что он использует Map/Reduce.
Я огляделся, но не смог найти решение....
5422 просмотров
schedule
01.10.2023
скопировать схему avro одного фрейма данных в другой-pyspark
У меня есть набор данных A со схемой A, а также набор данных B со схемой B. Оба набора данных A и B в основном похожи (имеют одинаковые столбцы, но типы данных различаются только для нескольких), но имеют незначительные различия. Один пример — столбец...
65 просмотров
schedule
14.05.2023
org.apache.avro.UnresolvedUnionException: не в объединении [{type:bytes,logicalType:decimal,precision:18,scale:4},null]: 0,0000
Я пытаюсь прочитать данные, хранящиеся в таблице кустов в s3, преобразовать их в формат Avro, а затем использовать записи Avro для создания конечного объекта и отправить его в тему кафки. В объекте, который я пытаюсь опубликовать, у меня есть...
422 просмотров
schedule
13.08.2022
Применение схемы Avro (.avsc) в Pyspark
Может ли кто-нибудь помочь мне прочитать схему avro (.avsc) через Pyspark и применить ее при записи кадра данных в целевое хранилище? Все мои схемы таблиц targetr предоставляются в виде файлов .avsc, и мне нужно предоставить эту пользовательскую...
188 просмотров
schedule
12.01.2024