Свойство управления частотой обновления файла Flume-ng hdfs .tmp

Я пытаюсь обновить файл .tmp с дополнительными событиями каждые 5 минут, мой источник работает медленно, и для получения файла размером 128 МБ в моем приемнике hdfs требуется 30 минут.

Есть ли какое-либо свойство в приемнике hdfs flume, где я могу контролировать частоту обновления файла .tmp до того, как файл будет свернут в HDFS.

Мне нужно это, чтобы увидеть данные в HDFS, используя таблицу кустов из файла .tmp.

В настоящее время я просматриваю данные из файла .tmp с помощью таблицы кустов, но файл .tmp не обновляется в течение длительного времени, так как размер рулона составляет 128 МБ.


person RAJESH    schedule 26.05.2015    source источник


Ответы (1)


Рассмотрите возможность уменьшения пропускной способности вашего канала и настроек transactionCapacity:

capacity    100 The maximum number of events stored in the channel
transactionCapacity 100 The maximum number of events the channel will take from a source or give to a sink per transaction

Эти параметры отвечают за контроль того, сколько событий помещается в буфер, прежде чем они будут сброшены в ваш приемник. Например, если вы уменьшите это значение до 10, каждые 10 событий будут сбрасываться в ваш файл tmp.

Второе значение, которое вам понадобится, чтобы изменить размер партии в вашем приемнике hdfs:

hdfs.batchSize  100 number of events written to file before it is flushed to HDFS

Значение по умолчанию 100, вероятно, будет слишком большим, если у вас очень медленный источник и вы хотите чаще видеть события.

person Erik Schmiegelow    schedule 27.05.2015