Насколько точны оценки водяных знаков при потоковой обработке в Apache Beam или Spark Streaming. Моим источником данных являются файлы из gcs/s3, но я использую время события, связанное с каждым событием, в качестве метки времени для оконной функции. Любые идеи о том, как эта эвристика или оценка вычисляются этими механизмами потоковой обработки, и есть ли способ измерить, насколько плохой была эта оценка.
Мой вариант использования: у меня есть несколько серверов, создающих журналы событий на gcs/S3, а затем я читаю эти файлы в потоковом режиме из моего механизма обработки потоков. Таким образом, это может быть отложено из-за сбоев и сбоев файловой системы или из-за того, что серверы не могут очищать события журнала в течение нескольких часов. Итак, в моем конвейере обработки потоков правильность является одним из важных аспектов при агрегировании некоторых событий. Так что мне любопытно, как вычисляется эта оценка водяного знака