Каковы плюсы и минусы между потоковой передачей данных в Bigquery и загрузкой данных в PubSub, а затем использованием потока данных для вставки данных в BigQuery?

Насколько я знаю, потоковая передача данных в BigQuery может привести к дублированию строк, как упоминается здесь https://cloud.google.com/bigquery/streaming-data-into-bigquery#real-time_dashboards_and_queries

С другой стороны, загрузка данных в PubSub, а затем использование потока данных для вставки данных в Bigquery предотвратит появление повторяющихся строк ?. здесь также есть руководство по анализу данных в реальном времени https://cloud.google.com/solutions/real-time/fluentd-bigquery

Итак, каковы другие плюсы и минусы, и в каком случае мне следует использовать поток данных для потоковой передачи данных из PubSub


person prideloki    schedule 02.05.2017    source источник


Ответы (1)


С помощью Google Dataflow и PubSub у вас будет полный контроль над потоковыми данными, вы можете нарезать и нарезать данные в реальном времени, реализовать свою собственную бизнес-логику и, наконец, записать ее в таблицу BigQuery. С другой стороны, используя другие подходы для прямой потоковой передачи данных в BigQuery с помощью заданий BigQuery, вы определенно теряете контроль над своими данными.

Плюсы и минусы действительно зависят от того, что вам нужно делать с потоковыми данными. Если вы выполняете плоскую вставку, нет необходимости в потоке данных, но если вам нужны серьезные вычисления, такие как группировка по ключу, слияние, разделение, сумма по вашим потоковым данным, то, вероятно, поток данных будет лучшим подходом для этого. Следует иметь в виду стоимость, если вы начнете вводить серьезный объем данных в PubSub и использовать поток данных для управления теми, которые становятся дорогостоящими.

Чтобы ответить на ваш вопрос, да, вы можете удалить повторяющиеся строки с помощью Dataflow. Поскольку Dataflow полностью контролирует данные, вы можете использовать конвейерные фильтры для проверки любых условий, соответствующих повторяющимся значениям. Текущий сценарий, который я использую конвейер потока данных, предназначен для управления записью журнала моих клиентов в режиме реального времени с серьезной предварительной агрегацией, выполняемой с помощью потока данных и потока журналов, передаваемых через PubSub. Dataflow очень эффективен как для пакетной обработки, так и для потоковой обработки данных. Надеюсь это поможет.

person Bibek Adhikari    schedule 02.05.2017