В Hadoop, как обрабатывать ежедневно увеличивающиеся данные:
Например:
1-й день у меня может быть 1 миллион файлов в какой-то входной папке (например, hadoop/demo)
2-й день в той же папке файлы могут увеличиться с существующего 1 миллиона файлов + еще один новый 1 миллион файлов, всего 2 миллиона.
аналогично 3-й 4-й день... так держать.
Мое ограничение -> файлы 1-го дня не должны обрабатываться на следующий день.
(i.e) Уже обработанные файлы не должны обрабатываться снова, когда к ним добавляются новые файлы. В частности, следует обрабатывать только новые добавленные файлы, а старые файлы следует игнорировать.
Так помогите мне, как я могу решить эту проблему.
Тем не менее, если вы не поняли ограничение, пожалуйста, сообщите, где это неясно, чтобы я мог подробнее рассказать о своем ограничении!