Похоже, что поток данных застрял в облачном потоке данных с Apache Beam 2.1.1 после переключения на Firebase Firestore в качестве источника конвейера.

Я борюсь с этим и сначала подумал, что это может быть результатом переключения источника данных конвейера с Cloud Datastore на Firebase Firestore, что потребовало нового проекта. Но с тех пор я обнаружил ту же ошибку в отдельных конвейерах. Все конвейеры успешно работают в локальном DirectRunner, а разрешения выглядят такими же, как и в старом проекте.

Похоже, что ни одна из виртуальных машин не загружается, и конвейер никогда не масштабируется выше 0 рабочих. «Кажется, что поток данных завис» - единственное сообщение об ошибке, которое я смог найти, а в StackDriver ничего нет. Пробовал все варианты управления зависимостями, которые я мог найти в документации, но, похоже, это не проблема.

Мой последний идентификатор задания Dataflow - 2017-10-11_11_12_01-15165703816317931044.

Пытался повысить роли доступа для всех учетных записей служб, но все равно не повезло.


person Parker Heindl    schedule 11.10.2017    source источник
comment
Есть ли ошибки в журналах рабочего процесса StackDriver для этого задания?   -  person jkff    schedule 11.10.2017
comment
Нет, не нашел. Спасибо за вопрос.   -  person Parker Heindl    schedule 11.10.2017


Ответы (1)


Без какой-либо информации журнала это трудно определить. Но это может произойти, если вы изменили разрешения или роли учетной записи службы Dataflow или учетной записи службы Compute Engine, так что у учетной записи службы недостаточно разрешений для получения изображений для работников Dataflow.

person David Yan    schedule 11.10.2017
comment
Для получения дополнительной информации: cloud.google.com/dataflow/ - person David Yan; 12.10.2017
comment
Спасибо за ответ, Дэвид. Я попытался поднять учетные записи службы вычислений и потока данных до редактора / владельца, но это не изменилось. Я действительно думаю, что вы что-то понимаете, потому что я перешел в новый проект, чтобы использовать Firebase Firestore в качестве источника данных. - person Parker Heindl; 12.10.2017
comment
Итак, оказалось, что API потока данных не был включен в console.cloud.google.com/apis/ библиотека. Это было странно, потому что у меня был доступ к панели управления Dataflow в консоли, и я никогда не получал ошибки, которые предлагали аналогичные вопросы StackOverflow. Спасибо за помощь, Дэвид. - person Parker Heindl; 19.10.2017
comment
Рад, что вы это исправили. Но это все равно странно, поскольку, если бы вы не включили API потока данных, у вас даже не было бы учетной записи службы потока данных в проекте ... - person David Yan; 20.10.2017