Вопросы по теме 'google-cloud-dataflow'

Как изменить регион экземпляра в Cloud Dataflow?
Я попытался запустить пример DataflowJavaSDK WordCount в моем проекте gcp, но сообщение показывает: Сбой рабочего процесса. Причины: (638fd23bd03812d4): внутренняя ошибка: сбой рабочего процесса. Свяжитесь с нами по адресу...
655 просмотров
schedule 16.05.2023

Как написать в BigQuery, используя схему, вычисленную во время выполнения потока данных?
У меня есть следующий сценарий: Pipeline A looks up table A in BigQuery, does some computation and returns a list of column names. This list of columns names is used as the BigQuery schema for output of pipeline B. Не могли бы вы...
1909 просмотров
schedule 03.02.2024

Как запустить задание Google Cloud Dataflow из App Engine?
Прочитав документацию Cloud Dataflow, я все еще не уверен, как запустить задание потока данных из App Engine. Является ли это возможным? Имеет ли значение, написан ли мой бэкенд на Python или на Java? Спасибо!
2695 просмотров

Ошибка потока данных - слишком большие источники. Лимит 5.00Ti
У нас есть конвейер, который выглядит так: BigQuery -> ParDo -> BigQuery В таблице ~ 2B строк и чуть меньше 1 ТБ. После выполнения чуть более 8 часов задание не удалось выполнить со следующей ошибкой: May 19, 2015, 10:09:15 PM S09:...
116 просмотров
schedule 14.02.2022

Объединение файлов в Google Cloud Storage с помощью Google Cloud Dataflow
Натан Марц в своей книге " Big Data " описывает, как хранить файлы данных в HDFS и как оптимизировать размеры файлов, чтобы они были как можно ближе размер собственного блока HDFS, насколько это возможно, используя его Pail , работающая поверх...
924 просмотров

Запись в облачное хранилище как побочный эффект в облачном потоке данных
У меня есть задание облачного потока данных, которое выполняет большую часть обработки для приложения appengine. На одном из этапов конвейера я создаю группу по определенному ключу, и для каждой записи, соответствующей этому ключу, я хотел бы...
361 просмотров

Настройка пользовательских кодеров и обработка параметризованных типов
У меня есть два вопроса, связанных с проблемами кодировщика, с которыми я сталкиваюсь в своем конвейере Dataflow. Как настроить кодировщик для моих пользовательских типов данных? Класс состоит всего из трех элементов — двух двойников и еще...
1762 просмотров

Ошибка 403 при попытке доступа к Google Cloud Datastore через Dataflow
У меня есть приложение Google App Engine, в котором данные хранятся в Google Cloud Datastore. Я хочу использовать Dataflow, чтобы поместить часть этих данных в BigQuery, но я решил начать с простого получения информации из хранилища данных и записи...
2418 просмотров

Может ли Google Dataflow генерировать файлы Parquet
Может ли Google Dataflow генерировать файлы Parquet в результате преобразования ETL. Ввод ---> Поток данных -----> Паркетные файлы
581 просмотров
schedule 20.07.2023

Профилирование памяти в Google Cloud Dataflow
Как лучше всего отладить проблемы с памятью при выполнении задания потока данных? Моя работа завершилась ошибкой GC OOM, но когда я профилирую ее локально, я не могу воспроизвести точные сценарии и объемы данных. Я запускаю его сейчас на машинах...
2342 просмотров
schedule 05.03.2022

Общий шаблон облачного потока данных — есть ли лучший способ?
Мы часто используем следующий шаблон в Dataflow: Выполните извлечение ключа ParDo из таблицы BigQuery TableRow. Выполните GroupByKey по результату 1 Выполните сведение ParDo к результату 2 Есть ли операция в Dataflow для достижения...
236 просмотров
schedule 09.07.2022

Сбой задания потока данных: не удалось завершить работу ресурса worker_pool_resource.
Что означает следующая ошибка? Jan 12, 2016, 11:07:12 AM (8e14844346add98d): Workflow failed. Causes: (8e14844346addb8e): Step teardown_resource_global_gce_worker_pool535: Resource worker_pool_resource failed to shut down Это подсказывает...
67 просмотров
schedule 27.05.2023

SideInputs убивает производительность потока данных
Я использую поток данных для создания большого количества данных. Я протестировал две версии своего пайплайна: одну с боковым входом (разного размера), а другую без него. Когда я запускаю конвейер без побочного ввода, моя работа завершается...
1960 просмотров
schedule 26.03.2024

Как получить декартово произведение двух PCollections
Я новичок в использовании Google Cloud Dataflow. Я хотел бы получить декартово произведение двух PCollections. Например, если у меня есть две коллекции PCollections (1, 2) и ("hello", "world") , их декартово произведение равно ((1, "hello"), (1,...
786 просмотров
schedule 18.03.2023

Сбой заданий Google Cloud Dataflow, недоступные банки и 410 исчезнувших ошибок
Вчера произошел сбой ряда моих заданий Google Cloud Dataflow, сообщающих о внутренних ошибках, которых я раньше не видел. Вот два примера: Идентификатор задания 2016-01-31_12_14_47-10166346951693629111 завершился со следующей ошибкой: Jan 31,...
666 просмотров
schedule 01.03.2024

Имя динамической таблицы при записи в BQ из конвейеров потока данных
В качестве дополнительного вопроса к следующему вопросу и ответу: https://stackoverflow.com/questions/31156774/about-key-grouping-with-groupbykey Я хотел бы подтвердить с командой разработчиков потока данных Google ( @jkff ), возможен ли...
1517 просмотров
schedule 04.04.2023

Как я могу разместить дополнительные файлы в моем конвейере Google Cloud Dataflow?
Мой код: Foo bar = new Foo("somefile.gz"); Когда я запускаю его в потоке данных Google, он не может найти мой файл somefile.gz . Как разместить файл ресурсов в Google Dataflow?
513 просмотров

ClassNotFoundException: sun.security.provider.Sun при запуске конвейера Google Cloud Dataflow в Google App Engine.
DoFn в нашем конвейере потока данных содержит тип с полем Random , указывающим на экземпляр SecureRandom , и это поле не может быть десериализовано при работе в службе потока данных с использованием DataflowPipelineRunner . (трассировка стека...
968 просмотров

ETL и анализ файлов CSV в Cloud Dataflow
Я новичок в облачных потоках данных и Java, поэтому я надеюсь, что это правильный вопрос. У меня есть файл csv с n количеством столбцов и строк, которые могут быть строкой, целым числом или отметкой времени. Нужно ли мне создавать новую коллекцию...
3135 просмотров
schedule 30.07.2022

Фильтрация ограниченных данных в потоке данных на основе отметки времени
В моем конвейере потока данных у меня будет два PCollections<TableRow> , которые были прочитаны из таблиц BigQuery. Я планирую объединить эти две PCollections в одну PCollection с помощью flatten . Поскольку BigQuery предназначен...
714 просмотров
schedule 01.04.2022