Stream kinesis Analytics ETL Flink - пропускать записи до и после задержки

ИЗМЕНИТЬ:

У меня есть требование пропустить записи, созданные до 10 и 20 секунд после того, как произойдет разрыв во входящих данных.

(Считается, что разрыв возникает, когда время события1 - время события2> 3 секунды)

полученные данные используются для вычисления среднего или медианного значения во временном окне,

Возможно ли это сделать с помощью аналитики Kinesis, Dataflow, flink API или какого-либо другого решения, которое работает?


person Ajmal M Sali    schedule 19.07.2020    source источник


Ответы (1)


Если я правильно понимаю, вы хотите найти медианное и среднее значение записей, которые создаются между 10 и 20 секундами после паузы не менее 3 секунд.

Используя Flink (или Kinesis Analytics, который является управляемой службой Flink), вы можете сделать это с помощью окна сеанса или ProcessFunction. Функции процессов более гибкие и способны обрабатывать практически все, что вам может понадобиться. Однако в этом случае окна сеанса, вероятно, проще, особенно если вы готовы дождаться завершения сеанса (то есть до следующего промежутка), чтобы получить результаты. Вы можете избежать этой задержки, реализовав настраиваемое окно Триггер.

руководство по окнам
руководство по функциям процесса

person David Anderson    schedule 19.07.2020
comment
Дэвид, я редактировал вопрос, в основном вопрос касается пропуска определенных записей, используемых в расчетах. - person Ajmal M Sali; 19.07.2020
comment
Я не понимаю требований ко времени, но что касается пропуска событий, с помощью любого из упомянутых мною решений вы будете обрабатывать события по одному и можете пропускать любые, которые вы не хотите влиять на результаты. - person David Anderson; 19.07.2020