У меня есть поток, который просматривает вывод нескольких файлов в каталоге, обрабатывает данные и помещает их в HDFS. Вот моя команда создания потока:
stream create --name fileHdfs --definition "file --dir=/var/log/supervisor/ --pattern=tracker.out-*.log --outputType=text/plain | logHdfsTransformer | hdfs --fsUri=hdfs://192.168.1.115:8020 --directory=/data/log/appsync --fileName=log --partitionPath=path(dateFormat('yyyy/MM/dd'))" --deploy
Проблема в источнике: файловый модуль отправляет все данные, считанные из файла, в модуль обработки журнала вместо одной строки каждый ход, из-за этого строка полезной нагрузки содержит миллионы символов, я не могу ее обработать. Бывший:
--- PAYLOAD LENGTH---- 9511284
Подскажите, пожалуйста, как читать построчно при использовании модуля source:file, спасибо!!!