Пользовательский источник для чтения файла паркета в облачном потоке данных

У меня есть требование прочитать файл паркета в моем потоке данных, написанном на java, и загрузить его в bigquery. Поскольку готовых функций пока нет, я знаю, что мне нужно написать собственный источник с помощью hadoopFileFormat, но я не могу найти никакой документации по этому поводу. Может ли кто-нибудь помочь мне с кодом или документацией о том, как написать собственный источник или любой другой подход, доступный для чтения файла паркета в потоке данных Cloud.


person Siddharth Chaurasia    schedule 03.04.2018    source источник


Ответы (1)


Документация Apache Beam для встроенных преобразований ввода-вывода содержит список незавершенной работы по преобразованиям ввода-вывода в Apache Beam. На самом деле этот список включает в себя чтение файлов Apache Parquet на Java, которым можно следовать в BEAM-214. Джира.

Так что на данный момент вы правы, готового решения для работы с файлами Parquet в Apache Beam/Cloud Dataflow нет. Тем не менее, в этой области наблюдается прогресс, поэтому не стесняйтесь быть в курсе Jira, которой я поделился выше.

Кроме того, вы должны знать, что Stack Overflow не является подходящим сайтом для запроса кода или внешних руководств/документации о том, как что-то сделать, поэтому маловероятно, что вы получите такую ​​информацию. Согласно Справочному центру:

  1. Вопросы, в которых нас просят порекомендовать или найти книгу, инструмент, программную библиотеку, учебное пособие или другой сторонний ресурс, не относятся к теме Stack Overflow, поскольку они, как правило, привлекают самоуверенные ответы и спам. Вместо этого опишите проблему и то, что уже было сделано для ее решения.

Вместо этого я бы предложил вам сначала попробовать реализацию самостоятельно, а затем вернуться сюда с конкретными вопросами, на которые сообщество может лучше ответить.

person dsesto    schedule 11.04.2018