Google Dataflow с исходным кодом PubSubIO постоянно доступен?

Предположим, что у нас есть некоторые данные, поступающие через тему Google PubSub, и структура ее трафика по своей природе резкая, с потенциально долгим периодом молчания, прежде чем пачка данных будет поступать с большой скоростью в течение нескольких минут.

Для обработки этих данных, если мы собираемся использовать потоковый режим Dataflow с PubSubIO на основе подписки в качестве источника данных, будет ли поток данных всегда находиться в рабочем состоянии с минимальным количеством рабочих, или он будет перезапущен при поступлении пакета данных , но затем остановился, как только мы перейдем в период затишья?


person M Song    schedule 31.10.2016    source источник


Ответы (1)


Если вы включите автоматическое масштабирование, Dataflow повысит или уменьшит количество рабочие динамически в зависимости от нагрузки, без перезапуска конвейера. Подробнее об этом можно прочитать здесь и здесь.

person jkff    schedule 31.10.2016