В моей системе HDFS есть папка, содержащая текстовые файлы, сжатые с использованием кодека Snappy.
Обычно при чтении сжатых файлов GZIP в задании потоковой передачи Hadoop распаковка выполняется автоматически. Однако этого не происходит при использовании сжатых данных Snappy, и я не могу обрабатывать данные.
Как прочитать эти файлы и обработать их в Hadoop Streaming?
Спасибо заранее.
ОБНОВИТЬ:
Если я использую команду hadoop fs -text file
, она работает. Проблема возникает только при использовании потоковой передачи Hadoop, данные не распаковываются перед передачей в мой скрипт Python.