Вопросы по теме 'apache-beam'
Что такое Apache Beam?
Я просматривал сообщения Apache и нашел новый термин под названием Beam. Кто-нибудь может объяснить, что такое Apache Beam? Я пытался погуглить, но не смог получить четкого ответа.
22742 просмотров
schedule
12.03.2022
Как устранить ошибку травления в классе apache_beam.internal.clients.dataflow.dataflow_v1b3_messages.TypeValueValuesEnum?
Ошибка PicklingError возникает, когда я запускаю свой конвейер данных удаленно: конвейер данных был написан с использованием Beam SDK для Python, и я запускаю его поверх Google Cloud Dataflow. Конвейер работает нормально, когда я запускаю его...
3162 просмотров
schedule
15.02.2022
Как получить список элементов из коллекции PCollection в потоке данных Google и использовать его в конвейере для зацикливания преобразований записи?
Я использую Google Cloud Dataflow с Python SDK.
Я бы хотел :
Получить список уникальных дат из основной коллекции PCollection
Прокрутите даты в этом списке, чтобы создать отфильтрованные коллекции PCollection (каждая с уникальной датой), и...
6777 просмотров
schedule
11.07.2023
Чтение вложенного JSON в Google Dataflow / Apache Beam
Можно читать невложенные файлы JSON в облачном хранилище с помощью Dataflow через:
p.apply("read logfiles", TextIO.Read.from("gs://bucket/*").withCoder(TableRowJsonCoder.of()));
Если я просто хочу записывать эти журналы с минимальной...
4468 просмотров
schedule
23.02.2022
Построение конвейера потока данных с одинаковыми преобразованиями на побочных выходах
Мы создаем потоковый конвейер, в котором данные могут столкнуться с различными ошибками на нескольких этапах, такими как ошибка сериализации, ошибка проверки и ошибка времени выполнения при записи в хранилище. Всякий раз, когда происходит ошибка, мы...
290 просмотров
schedule
21.12.2023
WriteToText работает в DirectRunner, но не работает с TypeError в DataflowRunner
Я могу запустить этот код с DirectRunner , и он отлично работает. С DataflowRunner происходит сбой:
TypeError: process () принимает ровно 4 аргумента (3 задано) [при выполнении 'write_text / Write / WriteImpl / WriteBundles'] `
Мой...
1062 просмотров
schedule
16.04.2023
Учетные данные служебной учетной записи для параметров конвейера потока данных
Обновление с Dataflow 1.9 до Beam 0.4.0. Методы GcpOptions для установки имени учетной записи службы ( setServiceAccountName ) и файла ключа ( setServiceAccountKeyFile ) больше не доступны. Ближайшая альтернатива — setGcpCredential .
Чтобы...
663 просмотров
schedule
26.08.2022
Создайте конвейер Apache Beam для чтения из Google Pub / Sub
Я пытаюсь создать потоковый конвейер с использованием apache-beam, который читает предложения из google pub / sub и записывает слова в таблицу Bigquery.
Я использую 0.6.0 версию apache-beam.
Следуя примерам, я сделал это:
public class...
2060 просмотров
schedule
21.10.2022
Чтение Apache Beam из Kafka дает CoderException: java.io.EOFException
Я реализовал чтение конвейера Beam из Kafka на основе документов здесь: https://github.com/apache/beam/blob/master/sdks/java/io/kafka/src/main/java/org/apache/beam/sdk/io/kafka/KafkaIO.java#L125
Сам конвейер отлично работает с ограниченными...
1794 просмотров
schedule
14.08.2022
Неизвестный производитель для значения SingletonPCollectionView
Чтобы предоставить минимальный пример моей проблемы, я пытаюсь реализовать простое задание Beam, которое принимает String в качестве побочного ввода и применяет его к PCollection , который читается из файла csv в облачном хранилище. Затем...
240 просмотров
schedule
01.01.2024
Есть ли приложения для журналов потока данных?
Можно ли зарегистрировать приложения для логбэка в Dataflow?
С помощью Beam я могу определить приложение для DirectRunner, но когда я развертываю его в Dataflow, кажется, что он больше не работает. Это просто мой logback.xml теряется или это...
611 просмотров
schedule
20.04.2022
Прокрутите коллекцию PCollection, чтобы создать структуру данных Graph, а затем передайте ее как SideInput в конвейерное преобразование.
У меня есть случай использования, когда мне нужно прочитать большую таблицу запросов в конвейере потока данных, а затем прочитать каждую строку в этой коллекции PCollection, чтобы построить структуру данных графа. А затем передайте график как...
970 просмотров
schedule
04.10.2022
Возврат большой структуры данных из рабочего узла Dataflow, застревание в сериализующем графе
У меня есть большой граф ~ 100 тыс. вершин и ~ 1 миллион ребер, которые строятся в функции DoFn . Когда я пытаюсь вывести этот график в DoFn, выполнение функции останавливается на c.output(graph); .
public static class Prep extends...
162 просмотров
schedule
25.02.2024
TextIO. Чтение нескольких файлов из GCS с использованием шаблона {}
Я пробовал использовать следующие
TextIO.Read.from("gs://xyz.abc/xxx_{2017-06-06,2017-06-06}.csv")
Этот шаблон не сработал, как я понял
java.lang.IllegalStateException: Unable to find any files matching...
5752 просмотров
schedule
06.02.2022
Имеет ли смысл использовать Google DataFlow/Apache Beam для распараллеливания задач обработки изображений или сканирования?
Я рассматриваю Google DataFlow как вариант для запуска конвейера, который включает такие шаги, как:
Загрузка изображений из Интернета;
Обработка изображений.
Мне нравится, что DataFlow управляет жизненным циклом виртуальных машин,...
1468 просмотров
schedule
11.06.2023
Непоследовательное поведение при работе шаблонов потока данных?
Когда я создаю шаблон потока данных, характеристики параметров среды выполнения не сохраняются в файле шаблона. Во время выполнения, если я попытаюсь передать значение для этого параметра, я получу ошибку 400
Я использую Scio 0.3.2, scala 2.11.11...
1327 просмотров
schedule
05.02.2023
Apache Beam - тест интеграции с неограниченной коллекцией PCollection
Мы создаем интеграционный тест для конвейера Apache Beam и сталкиваемся с некоторыми проблемами. См. Контекст ниже ...
Подробная информация о нашем трубопроводе:
Мы используем PubsubIO в качестве источника данных (неограниченный...
1530 просмотров
schedule
19.05.2024
Google Dataflow, похоже, сбросил 1000-ю запись
Я провел небольшой тест с использованием Google Dataflow (apache-beam). Вариант использования для эксперимента — взять файл (csv) и записать выбранный столбец в файл (txt).
Код для эксперимента приведен ниже:
from __future__ import...
125 просмотров
schedule
24.10.2023
Загрузка статистики (журналов) всех заданий загрузки BigQuery в моем проекте в таблицу BigQuery
После завершения задания Apache Beam (Google Cloud Dataflow 2.0) мы получаем готовую команду в конце логов bq show -j --format=prettyjson --project_id=<My_Project_Id> 00005d2469488547749b5129ce3_0ca7fde2f9d59ad7182953e94de8aa83_00001-0 ,...
194 просмотров
schedule
06.08.2023
Как повысить производительность TextIO или AvroIO при чтении очень большого количества файлов?
TextIO.read() и AvroIO.read() (а также некоторые другие операции ввода-вывода Beam) по умолчанию не очень хорошо работают в текущих средствах выполнения Apache Beam при чтении шаблона файла, который расширяется до очень большого количества файлов...
1239 просмотров
schedule
09.07.2023