Я использую разъем приемника Kafka для записи данных из Kafka в s3. Выходные данные разбиты на почасовые сегменты — year=yyyy/month=MM/day=dd/hour=hh
. Эти данные используются последующим пакетным заданием. Итак, прежде чем запускать подчиненное задание, я должен быть уверен, что никакие дополнительные данные не поступят в данный раздел после того, как начнется обработка для этого раздела.
Каков наилучший способ спроектировать это? Как пометить раздел как завершенный? то есть никакие дополнительные данные не будут записаны в него после того, как он будет помечен как завершенный.
EDIT: я использую RecordField как timestamp.extractor. Мои сообщения kafka гарантированно будут отсортированы в разделах по полю раздела