Вопросы по теме 'flume-ng'

Источник кафки Flume 1.6
кафка_2.10-0.8.2.0 лоток 1.6 Это моя конфигурация канала: a1.sources = r1 a1.sinks = k1 a1.channels = c1 a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource a1.sources.r1.zookeeperConnect = a2:3181...
3258 просмотров
schedule 03.01.2024

flume: найти ip/имя хоста отправителя события?
Я пытаюсь настроить конвейер данных, где серверы приложений отправляют (используя ведение журнала log4j) logevents в поток (используя приложение Flume log4j) по сети, в avrosource, который использует агент Flume. Я пробовал с приведенной ниже...
1054 просмотров
schedule 20.06.2022

Отправка исключения обратно клиенту, брошенному приемником лотка
Я планирую использовать Flume с HTTPSource для загрузки данных в HDFS. Приемник будет настроен на сохранение данных в таблицу Hive/Hbase. Если есть какое-либо исключение/ошибка при записи данных в HDFS, можно ли их вернуть клиенту?...
129 просмотров
schedule 31.10.2022

Свойство управления частотой обновления файла Flume-ng hdfs .tmp
Я пытаюсь обновить файл .tmp с дополнительными событиями каждые 5 минут, мой источник работает медленно, и для получения файла размером 128 МБ в моем приемнике hdfs требуется 30 минут. Есть ли какое-либо свойство в приемнике hdfs flume, где я могу...
454 просмотров

Поток Spark не может читать файлы, созданные из потока в hdfs
Я создал приложение в реальном времени, в котором я записываю потоки данных в hdfs из веб-журналов с помощью flume, а затем обрабатываю эти данные с помощью искрового потока. Но пока flume пишет и создает новые файлы в потоке искры hdfs, не может...
908 просмотров

Канал памяти Flume для стока HDFS
У меня возникла проблема с Flume (1.5 на Cloudera CDH 5.3): spoolDir source -> memory channel -> HDFS sink Что я пытаюсь сделать: каждые 5 минут около 20 файлов помещаются в каталог буферизации (захвачены из удаленного хранилища)....
1414 просмотров
schedule 20.05.2023

Flume не обрабатывает ключевые слова из источника Twitter с помощью flume-ng с Hadoop 2.5 cdh5.3
Я пытаюсь обработать некоторые ключевые слова Twitter с помощью MemChannel и HDFS . Но flume-ng не показывает дальнейшего прогресса после статуса HDFS started на консоли. Вот содержимое /etc/flume-ns/conf/flume-env.sh файла. #...
3709 просмотров
schedule 10.06.2022

Необработанная ошибка java.lang.NoSuchMethodError при запуске Flume для загрузки данных из твиттера
Когда я запускаю эту команду hduser@ubuntu:/usr/local/flume$ bin/flume-ng agent --conf ./conf/ -f conf/twitterflume-agent.conf -Dflume.root.logger=DEBUG,console -n TwitterAgent Flume запускается, но через некоторое время выдает мне...
1287 просмотров
schedule 02.05.2023

Apache Flume не работает с Twitter Stream
Попытка получить твиты Apache Flume в HortonWorks. (Используя учебную точку) Flume настроен правильно. Вот flume.conf TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS...
121 просмотров
schedule 24.03.2024

flume hdfs rollSize не работает в многоканальном и многоканальном режимах
Я пытаюсь использовать Flume-ng, чтобы получить 128 МБ информации журнала и поместить ее в файл в HDFS. Но параметры прокатки HDFS не работают. Flume-ng отправляет файл журнала в секунду. Как исправить файл flume.conf? agent01.sources =...
370 просмотров
schedule 20.01.2023

Приложение зависает, когда я подключаюсь к PipelinesRDD и RDD из DStream
Я использую Spark 1.6.0 со Spark Streaming и имею одну проблему с широкими операциями. Пример кода: существует RDD под названием «a», который имеет тип: class 'pyspark.rdd.PipelinedRDD'. "а" было получено как: # Load a text file and convert...
375 просмотров

Как использовать источник taildir в Flume для добавления только самых новых строк файла .txt?
Недавно я задал вопрос Apache Flume - отправлять только новое содержимое файла Я перефразирую вопрос, чтобы узнать больше и предоставить больше пользы будущим пользователям Flume. Установка: два сервера, один с файлом .txt, к которому...
914 просмотров
schedule 17.03.2024

Как фильтровать несколько исходных данных с помощью Apache Flume?
Я использую flume для обработки данных из нескольких источников и храню их в HDFS, но я не мог понять, как фильтровать данные перед сохранением в HDFS.
174 просмотров
schedule 14.06.2022

Агент Flume: как агент Flume получает данные с веб-сервера, расположенного на другом физическом сервере.
Я пытаюсь понять Flume и ссылаюсь на официальную страницу Flume по адресу flume.apache.org. В частности, ссылаясь на этот раздел , я немного запутался в этом . Нужно ли нам запускать агент Flume на реальном веб-сервере или мы можем запускать...
243 просмотров
schedule 21.04.2023

Не удалось загрузить positionFile: при использовании источника TAILDIR в потоке я получаю сообщение об ошибке
Я работаю над Flume, чтобы добавить данные из локального каталога в HDFS, используя Flume Source TAILDIR . Мой вариант использования - выполнить дельта-загрузку. Если новая строка появится в исходном файле в локальном каталоге, она будет добавлена...
591 просмотров
schedule 25.04.2023

Запись данных в каталог хранилища улья в две отдельные таблицы с использованием Flume
Я хочу записать данные в каталог хранилища улья, в две отдельные таблицы с именами flumemaleemployee и flumefemaleemployee . Последние 3 records должны быть вставлены в таблицу female , а верхние 3 records должны быть вставлены в таблицу...
114 просмотров
schedule 22.07.2023

Как отслеживать статус агентов Apache Flume?
Я знаю способ Enterprise (например, Cloudera), используя CM (через браузер) или Cloudera REST API, можно получить доступ к средствам мониторинга и настройки. Но как запланировать (запустить и перезапустить) жизненный цикл агентов Flume и...
575 просмотров
schedule 24.03.2023

Flume: назначить ключ для раковины раздела kafka
Я имею дело с проблемой, но я не могу найти ответ на ее решение, ни в документации по Flume. Я хочу взять абсолютный путь к файлу хвоста и сохранить его. После того, как я хочу передать его в приемник kafka в качестве ключа, чтобы все события имели...
198 просмотров
schedule 04.02.2024