скопировать схему avro одного фрейма данных в другой-pyspark

У меня есть набор данных A со схемой A, а также набор данных B со схемой B. Оба набора данных A и B в основном похожи (имеют одинаковые столбцы, но типы данных различаются только для нескольких), но имеют незначительные различия. Один пример — столбец в набор данных A имеет значение даты («2020-08-03», представленное как строковый тип данных), тот же столбец в наборе данных B представлен как номер эпохи (длинный). Теперь мне нужно объединить эти два набора данных. Если мне нужно объединиться, я должен использовать одни и те же типы данных в обоих наборах данных.

Не могли бы вы предложить, как мне это сделать? Это возможно ?


person chaithanya    schedule 03.08.2020    source источник


Ответы (1)


Вы должны использовать функции sql для изменения типов столбцов. Например, вы можете преобразовать дату строки в временную метку unix:

df.withColumn("date", unix_timestamp("date", "yyyy-MM-dd"))

Затем вы можете использовать union с обоими кадрами данных.

person Shadowtrooper    schedule 03.08.2020