Я использую несколько пакетных конвейеров Spark, которые потребляют данные Avro в облачном хранилище Google. Мне нужно обновить некоторые конвейеры, чтобы они работали в режиме реального времени, и мне интересно, может ли потоковая передача с искровой структурой напрямую потреблять файлы из gcs в потоковом режиме, т.е. parkContext.readstream.from(...)
может применяться к файлам Avro, которые постоянно создаются в ведре из внешних источников.
В луче Apache уже есть что-то вроде File.MatchAll().continuously()
, Watch, watchnewFiles
, которые позволяют конвейерам лучей отслеживать новые файлы и читать их в потоковом режиме (тем самым устраняя необходимость в pubsub или системе уведомлений). Есть ли что-то подобное и для структурированной потоковой передачи Spark?