Вопросы по теме 'apache-beam'

Что такое Apache Beam?
Я просматривал сообщения Apache и нашел новый термин под названием Beam. Кто-нибудь может объяснить, что такое Apache Beam? Я пытался погуглить, но не смог получить четкого ответа.
22742 просмотров
schedule 12.03.2022

Как устранить ошибку травления в классе apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum?
Ошибка PicklingError возникает, когда я запускаю свой конвейер данных удаленно: конвейер данных был написан с использованием Beam SDK для Python, и я запускаю его поверх Google Cloud Dataflow. Конвейер работает нормально, когда я запускаю его...
3162 просмотров

Как получить список элементов из коллекции PCollection в потоке данных Google и использовать его в конвейере для зацикливания преобразований записи?
Я использую Google Cloud Dataflow с Python SDK. Я бы хотел : Получить список уникальных дат из основной коллекции PCollection Прокрутите даты в этом списке, чтобы создать отфильтрованные коллекции PCollection (каждая с уникальной датой), и...
6777 просмотров

Чтение вложенного JSON в Google Dataflow / Apache Beam
Можно читать невложенные файлы JSON в облачном хранилище с помощью Dataflow через: p.apply("read logfiles", TextIO.Read.from("gs://bucket/*").withCoder(TableRowJsonCoder.of())); Если я просто хочу записывать эти журналы с минимальной...
4468 просмотров
schedule 23.02.2022

Построение конвейера потока данных с одинаковыми преобразованиями на побочных выходах
Мы создаем потоковый конвейер, в котором данные могут столкнуться с различными ошибками на нескольких этапах, такими как ошибка сериализации, ошибка проверки и ошибка времени выполнения при записи в хранилище. Всякий раз, когда происходит ошибка, мы...
290 просмотров
schedule 21.12.2023

WriteToText работает в DirectRunner, но не работает с TypeError в DataflowRunner
Я могу запустить этот код с DirectRunner , и он отлично работает. С DataflowRunner происходит сбой: TypeError: process () принимает ровно 4 аргумента (3 задано) [при выполнении 'write_text / Write / WriteImpl / WriteBundles'] ` Мой...
1062 просмотров

Учетные данные служебной учетной записи для параметров конвейера потока данных
Обновление с Dataflow 1.9 до Beam 0.4.0. Методы GcpOptions для установки имени учетной записи службы ( setServiceAccountName ) и файла ключа ( setServiceAccountKeyFile ) больше не доступны. Ближайшая альтернатива — setGcpCredential . Чтобы...
663 просмотров
schedule 26.08.2022

Создайте конвейер Apache Beam для чтения из Google Pub / Sub
Я пытаюсь создать потоковый конвейер с использованием apache-beam, который читает предложения из google pub / sub и записывает слова в таблицу Bigquery. Я использую 0.6.0 версию apache-beam. Следуя примерам, я сделал это: public class...
2060 просмотров
schedule 21.10.2022

Чтение Apache Beam из Kafka дает CoderException: java.io.EOFException
Я реализовал чтение конвейера Beam из Kafka на основе документов здесь: https://github.com/apache/beam/blob/master/sdks/java/io/kafka/src/main/java/org/apache/beam/sdk/io/kafka/KafkaIO.java#L125 Сам конвейер отлично работает с ограниченными...
1794 просмотров

Неизвестный производитель для значения SingletonPCollectionView
Чтобы предоставить минимальный пример моей проблемы, я пытаюсь реализовать простое задание Beam, которое принимает String в качестве побочного ввода и применяет его к PCollection , который читается из файла csv в облачном хранилище. Затем...
240 просмотров
schedule 01.01.2024

Есть ли приложения для журналов потока данных?
Можно ли зарегистрировать приложения для логбэка в Dataflow? С помощью Beam я могу определить приложение для DirectRunner, но когда я развертываю его в Dataflow, кажется, что он больше не работает. Это просто мой logback.xml теряется или это...
611 просмотров
schedule 20.04.2022

Прокрутите коллекцию PCollection, чтобы создать структуру данных Graph, а затем передайте ее как SideInput в конвейерное преобразование.
У меня есть случай использования, когда мне нужно прочитать большую таблицу запросов в конвейере потока данных, а затем прочитать каждую строку в этой коллекции PCollection, чтобы построить структуру данных графа. А затем передайте график как...
970 просмотров
schedule 04.10.2022

Возврат большой структуры данных из рабочего узла Dataflow, застревание в сериализующем графе
У меня есть большой граф ~ 100 тыс. вершин и ~ 1 миллион ребер, которые строятся в функции DoFn . Когда я пытаюсь вывести этот график в DoFn, выполнение функции останавливается на c.output(graph); . public static class Prep extends...
162 просмотров

TextIO. Чтение нескольких файлов из GCS с использованием шаблона {}
Я пробовал использовать следующие TextIO.Read.from("gs://xyz.abc/xxx_{2017-06-06,2017-06-06}.csv") Этот шаблон не сработал, как я понял java.lang.IllegalStateException: Unable to find any files matching...
5752 просмотров

Имеет ли смысл использовать Google DataFlow/Apache Beam для распараллеливания задач обработки изображений или сканирования?
Я рассматриваю Google DataFlow как вариант для запуска конвейера, который включает такие шаги, как: Загрузка изображений из Интернета; Обработка изображений. Мне нравится, что DataFlow управляет жизненным циклом виртуальных машин,...
1468 просмотров

Непоследовательное поведение при работе шаблонов потока данных?
Когда я создаю шаблон потока данных, характеристики параметров среды выполнения не сохраняются в файле шаблона. Во время выполнения, если я попытаюсь передать значение для этого параметра, я получу ошибку 400 Я использую Scio 0.3.2, scala 2.11.11...
1327 просмотров

Apache Beam - тест интеграции с неограниченной коллекцией PCollection
Мы создаем интеграционный тест для конвейера Apache Beam и сталкиваемся с некоторыми проблемами. См. Контекст ниже ... Подробная информация о нашем трубопроводе: Мы используем PubsubIO в качестве источника данных (неограниченный...
1530 просмотров

Google Dataflow, похоже, сбросил 1000-ю запись
Я провел небольшой тест с использованием Google Dataflow (apache-beam). Вариант использования для эксперимента — взять файл (csv) и записать выбранный столбец в файл (txt). Код для эксперимента приведен ниже: from __future__ import...
125 просмотров

Загрузка статистики (журналов) всех заданий загрузки BigQuery в моем проекте в таблицу BigQuery
После завершения задания Apache Beam (Google Cloud Dataflow 2.0) мы получаем готовую команду в конце логов bq show -j --format=prettyjson --project_id=<My_Project_Id> 00005d2469488547749b5129ce3_0ca7fde2f9d59ad7182953e94de8aa83_00001-0 ,...
194 просмотров

Как повысить производительность TextIO или AvroIO при чтении очень большого количества файлов?
TextIO.read() и AvroIO.read() (а также некоторые другие операции ввода-вывода Beam) по умолчанию не очень хорошо работают в текущих средствах выполнения Apache Beam при чтении шаблона файла, который расширяется до очень большого количества файлов...
1239 просмотров