Я использую flume для обработки данных из нескольких источников и храню их в HDFS, но я не мог понять, как фильтровать данные перед сохранением в HDFS.
Как фильтровать несколько исходных данных с помощью Apache Flume?
Ответы (1)
У вас есть два варианта:
- Используйте перехватчик Flume, проверьте ответ здесь.
- Используйте решение на основе потоковой передачи (Apache spark, Apache Heron/Storm) для фильтрации записей и сохранения их в HDFS,
Второй вариант дает вам больше гибкости для написания различных типов потоковых шаблонов. Добавьте комментарий, если у вас есть дополнительные вопросы.
person
Rahul Sharma
schedule
18.08.2017