Gobblin Kafka в HDFS: добавить в тот же файл

Есть ли способ добавить новые сообщения из Kafka в тот же файл в HDFS с помощью Gobblin? Теперь он создает новый файл каждый раз, когда читает из Kafka. Например, если запускать задание Gobblin каждую минуту, файлов будет много.

Пожалуйста помоги!


person Kateryna Khotkevych    schedule 18.08.2016    source источник


Ответы (1)


Не уверен насчет Gobblin, но ИМХО Apache Flume будет для вас лучшим выбором.

person Sudev Ambadi    schedule 19.08.2016
comment
Насколько я знаю, Flume также не может добавлять в тот же файл. - person Kateryna Khotkevych; 19.08.2016
comment
1. Записывая файлы в одну и ту же папку, MR/Spark может читать все файлы в папке с заданным путем к папке. - person Sudev Ambadi; 20.08.2016
comment
Flume не будет создавать миллиард файлов, если вы правильно настроите его, он может объединять события в один и тот же файл. Проверь это. stackoverflow.com/questions/26169921/ - person Sudev Ambadi; 20.08.2016