Публикации по теме 'apache-flink'


Учебники по Apache Flink - Преобразования в одном наборе данных
Операторы преобразования также играют важную роль при обработке данных в Apache Flink и Apache Sprak. Для большинства источников данных они необходимы нам для получения желаемых целевых наборов данных. Flink поддерживает множество встроенных операторов преобразования, таких как map, flatMap, filter и т. Д. Для пользователей. Этот пост направлен на демонстрацию использования встроенных операторов преобразования в Apache Flink. Краткое введение в эти операторы можно найти в Руководстве по..

Apache Ignite - Использование сетки памяти для сред распределенных вычислений (Spark и Flink)
Достижение ускорения вычислений для TempusML Акшай Метре, разработчик TempusML TempusML и Apache Ignite Во время работы над Tempus ML , новым ускорителем студии машинного обучения в Hashmap, мне понадобилась платформа, которая позволила бы мне эффективно управлять данными между элементами вычислений. В частности, я хотел избежать записи на диск или записи в базу данных между дискретными вычислительными шагами. Я искал что-то, что позволило бы мне легко передавать результаты..

Вопросы по теме 'apache-flink'

Сбой связи при выполнении заданий Apache Flink
У меня есть работа, разработанная в Flink 0.9, в которой используется модуль графа (Gelly). Задание успешно выполняется в среде IDE (Eclipse), но после экспорта его в JAR с использованием maven (mvn clean install) оно не может выполняться на...
1227 просмотров
schedule 22.07.2023

Поведение итератора во flink reduceGroup
Я создаю систему, которая должна обрабатывать огромное количество данных, и мне нужно понимать, как работает оператор группы уменьшения. У меня есть набор данных, в котором я применяю groupby, а затем reduceGroup. Как ведет себя итератор,...
702 просмотров
schedule 18.04.2022

OutOfBoundsException с ALS — Flink MLlib
Я создаю систему рекомендаций для фильмов, используя наборы данных MovieLens, доступные здесь: http://grouplens.org/datasets/movielens/ Чтобы вычислить эту систему рекомендаций, я использую библиотеку ML Flink в scala и, в частности, алгоритм ALS...
366 просмотров

Средство чтения файлов CSV Flink не может преобразовать LongType в PojoType
Часть кода, который я пытаюсь выполнить во Flink: val pages = env.readCsvFile[(Long)]("/home/ppi.csv", fieldDelimiter = "\t", includedFields = Array(1)) Я хочу использовать pages для какой-то другой цели, но когда я компилирую, Flink...
918 просмотров
schedule 17.10.2023

Задача не сериализуема Flink
Я пытаюсь выполнить базовый пример pagerank во флинке с небольшой модификацией (только при чтении входного файла, все остальное то же самое), я получаю сообщение об ошибке Задача не сериализуема , а ниже - часть ошибки вывода...
1885 просмотров
schedule 17.06.2022

Как узнать, к какой подзадаче принадлежит локальное окно
Можно ли узнать, к какой подзадаче принадлежит локальное окно при потоковой передаче flink? Я хочу использовать метод getRuntimeContext().getIndexOfThisSubtask() в реализациях TriggerPolicy .
188 просмотров
schedule 22.05.2024

Запустите Apache Flink с Amazon S3
Кому-нибудь удается использовать Apache Flink 0.9 для обработки данных, хранящихся на AWS S3? Я обнаружил, что они используют собственную S3FileSystem вместо системы от Hadoop ... и похоже, что это не работает. Я поместил следующий путь s3:...
3769 просмотров
schedule 29.03.2022

В чем разница между следующими способами подсчета слов в Apache Flink?
Apache Flink предоставляет множество операций для DataSet. Немного сложно понять, как данные обрабатываются в кластере. Например, WordCount имеет разные инструменты. В чем разница? Было бы очень полезно, если бы были какие-то документы,...
196 просмотров
schedule 14.10.2023

Как использовать joda.time в flink (или как использовать typeutils.runtime.kryo)
В проекте flink я использую щелчок класса case. case class click( date: LocalDateTime, stbId:String, channelId :Int) Этот класс заполнил наборы данных и отлично работал с датой java 8 java.time.LocalDateTime . После переключения на org.joda...
1939 просмотров
schedule 09.07.2023

FlinkKafkaConsumer082 настройка auto.offset.reset не работает?
У меня есть потоковая программа Flink, которая считывает данные из топика Kafka. В программе auto.offset.reset установлен на «наименьший». При тестировании в IDE / Intellij-IDEA программа всегда могла читать данные с начала темы. Затем я настроил...
1114 просмотров

Ошибка связи с JobManager в примере wordcount во flink
Я пытаюсь запустить пример wordcount: ../bin/flink run WordCount.jar и через несколько минут после выполнения выдает сообщение «Ошибка связи с JobManager». источник:...
3294 просмотров
schedule 06.03.2022

Как запустить веб-интерфейс диспетчера заданий Flink при запуске Flink из среды IDE
Я хотел бы получить доступ к веб-интерфейсу Flink при его локальном запуске из IDE. Мне это нужно, потому что я хотел бы получить доступ к счетчикам (аккумуляторам) Flink.
3247 просмотров
schedule 09.11.2023

Flink + Kafka сбросить контрольную точку и смещение
Короче говоря, я хотел бы повторно запустить конвейер Flink для данных в Kafka с самого начала . Флинк 0.10.2, Кафка 0.8.2. У меня есть тема твитов в Kafka с удержанием 2 часа и конвейер в Flink, который считает твиты со скользящим окном 5...
3354 просмотров

Время загрузки Apache Flink, какой настенный замок?
Интересно, какие настенные часы используются в случае конфигурации времени приема в Apache Flink. Здесь мы читаем время приема " назначает временные метки настенных часов записям, как только они поступают в систему (в источник) ". Если...
170 просмотров
schedule 09.05.2022

Вызов внешнего скрипта из Flink
Некоторым из вас это может показаться очень сложной проблемой. Я хочу использовать Apache Flink для применения некоторых алгоритмов к данным из SocketStream. Однако эти алгоритмы являются внешними исполняемыми файлами, которые я запускаю с помощью...
264 просмотров
schedule 30.09.2022

Кафка снова потребляет последнее сообщение, когда я перезапускаю клиент Flink
Я создал потребителя Kafka в Apache Flink API, написанном на Scala. Всякий раз, когда я передаю какие-то сообщения из темы, она должным образом их получает. Однако, когда я перезапускаю потребителя, вместо получения новых или неиспользованных...
2293 просмотров
schedule 13.02.2022

Опция получения нераспознанного: --topic при выполнении ReadFromKafka.java
Я получаю сообщение об ошибке ниже при выполнении ReadFromKafka.java Источник доступен на https://github.com/dataArtisans/kafka-example/blob/master/src/main/java/com/dataartisans/ReadFromKafka.java Неизвестный параметр: --topic Ошибка:...
1301 просмотров
schedule 27.11.2022

Как подсчитать по свойствам и временному окну с Apache Flink?
Предположим, у меня есть файл формы (по одному событию в строке): Source,Timestamp aa,2014-05-02 22:12:11 bb,2014-05-02 22:22:11 И я хотел бы суммировать количество событий, сгруппированных по источникам с непрерывным временным окном в 5...
1255 просмотров
schedule 11.12.2022

Богатая функция при присоединении к Flink, Scala API
Я борюсь с Flink и Scala. У меня есть преобразование соединения по DataSet , которое в значительной степени работает, но я хочу превратить его в RichFuntion , чтобы я мог получить доступ к широковещательному набору: val newBoard:...
931 просмотров
schedule 06.03.2022

Как кластеризовать наборы (пользователей/документов) с распределенным MinHash, используя метод объединения?
У меня есть большие сомнения по поводу того, как мне следует кластеризовать наборы с помощью MinHash вместе с техникой объединения. Я предполагаю, что все читающие хорошо знакомы с MinHash, поэтому я не буду определять большинство терминов, которые...
291 просмотров