С помощью Google Dataflow и PubSub у вас будет полный контроль над потоковыми данными, вы можете нарезать и нарезать данные в реальном времени, реализовать свою собственную бизнес-логику и, наконец, записать ее в таблицу BigQuery. С другой стороны, используя другие подходы для прямой потоковой передачи данных в BigQuery с помощью заданий BigQuery, вы определенно теряете контроль над своими данными.
Плюсы и минусы действительно зависят от того, что вам нужно делать с потоковыми данными. Если вы выполняете плоскую вставку, нет необходимости в потоке данных, но если вам нужны серьезные вычисления, такие как группировка по ключу, слияние, разделение, сумма по вашим потоковым данным, то, вероятно, поток данных будет лучшим подходом для этого. Следует иметь в виду стоимость, если вы начнете вводить серьезный объем данных в PubSub и использовать поток данных для управления теми, которые становятся дорогостоящими.
Чтобы ответить на ваш вопрос, да, вы можете удалить повторяющиеся строки с помощью Dataflow. Поскольку Dataflow полностью контролирует данные, вы можете использовать конвейерные фильтры для проверки любых условий, соответствующих повторяющимся значениям. Текущий сценарий, который я использую конвейер потока данных, предназначен для управления записью журнала моих клиентов в режиме реального времени с серьезной предварительной агрегацией, выполняемой с помощью потока данных и потока журналов, передаваемых через PubSub. Dataflow очень эффективен как для пакетной обработки, так и для потоковой обработки данных. Надеюсь это поможет.
person
Bibek Adhikari
schedule
02.05.2017