Как фильтровать несколько исходных данных с помощью Apache Flume?

Я использую flume для обработки данных из нескольких источников и храню их в HDFS, но я не мог понять, как фильтровать данные перед сохранением в HDFS.


person paul    schedule 18.08.2017    source источник


Ответы (1)


У вас есть два варианта:

  • Используйте перехватчик Flume, проверьте ответ здесь.
  • Используйте решение на основе потоковой передачи (Apache spark, Apache Heron/Storm) для фильтрации записей и сохранения их в HDFS,

Второй вариант дает вам больше гибкости для написания различных типов потоковых шаблонов. Добавьте комментарий, если у вас есть дополнительные вопросы.

person Rahul Sharma    schedule 18.08.2017