Я работаю над проектом, который должен писать через kafka в hdfs. Предположим, есть онлайн-сервер, который записывает сообщения в кафку. Каждое сообщение содержит метку времени. Я хочу создать задание, которое будет выводить файл / файлы в соответствии с отметкой времени в сообщениях. Например, если данные в кафке
{"ts":"01-07-2013 15:25:35.994", "data": ...}
...
{"ts":"01-07-2013 16:25:35.994", "data": ...}
...
{"ts":"01-07-2013 17:25:35.994", "data": ...}
Я хотел бы получить 3 файла в качестве вывода
kafka_file_2013-07-01_15.json
kafka_file_2013-07-01_16.json
kafka_file_2013-07-01_17.json
И, конечно, если я снова выполняю это задание, и в очереди есть новые сообщения, например
{"ts":"01-07-2013 17:25:35.994", "data": ...}
Он должен создать файл
kafka_file_2013-07-01_17_2.json // second chunk of hour 17
Я видел несколько открытых источников, но большинство из них читает из kafka в какую-то папку hdfs. Какое лучшее решение / дизайн / открытый исходный код для этой проблемы