Я пытаюсь создать файлы паркета в файле S3, используя искру, с целью, чтобы presto можно было использовать позже для запроса с паркета. В основном это выглядит так,
Kafka-->Spark-->Parquet<--Presto
Я могу создать паркет в S3, используя Spark, и он отлично работает. Теперь я смотрю на presto и, как мне кажется, обнаружил, что для запроса с parquet требуется мета-хранилище hive. Я не мог заставить presto читать мои паркетные файлы, хотя паркет сохраняет схему. Значит ли это, что во время создания файлов паркета искровое задание должно также хранить метаданные в хранилище метаданных улья?
Если это так, может ли кто-нибудь помочь мне найти пример того, как это делается. Проблема усугубляется тем, что моя схема данных меняется, поэтому для ее решения я создаю программную схему в искровом задании и применяю ее при создании паркетных файлов. И, если я создаю схему в хранилище метаданных улья, это необходимо делать с учетом этого.
Или вы могли бы пролить свет на это, если есть лучший альтернативный способ?