Я пытаюсь читать от нескольких брокеров kafka, используя KafkaIO на луче apache. Параметр по умолчанию для управления смещением - это сам раздел kafka (больше не используется zookeper из kafka> 0.9). При такой настройке, когда я перезапускаю задание / конвейер, возникает проблема с повторяющимися и отсутствующими записями.
Из того, что я читал, лучший способ справиться с этим - управлять смещением к внешним хранилищам данных. Возможно ли это сделать с текущей версией apache beam и KafkaIO? Сейчас я использую версию 2.2.0.
И, прочитав из кафки, запишу в BigQuery. Есть ли в KafkaIO настройка, в которой я могу установить зафиксированное сообщение только после того, как вставлю сообщение в BigQuery? Я могу найти только настройку автоматической фиксации прямо сейчас.