Проблема Talend при копировании локальных файлов в HDFS

Привет, я хочу знать, как копировать файлы в HDFS из исходной файловой системы (локальной файловой системы), если исходный файл уже скопирован в HDFS, то как удалить или игнорировать этот файл для повторного копирования в HDFS с помощью Talend.

Спасибо Венкат


person venkateswarlu    schedule 08.08.2016    source источник


Ответы (1)


Чтобы скопировать файлы из локальной файловой системы в HDFS, вам необходимо использовать компоненты tHDFSPut, если вы есть Talend для больших данных. Если вы используете Talend для интеграции данных, вы можете легко использовать компонент tSystem с нужным < команду href="http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html#put" rel="nofollow">.

Чтобы избежать дублирования файлов, вам нужно создать таблицу в СУБД и отслеживать все скопированные файлы. Каждый раз, когда задание начинает копирование файла, оно должно проверять, существует ли он уже в таблице.

person 54l3d    schedule 08.08.2016