Cloudera Impala: как он считывает данные из блоков HDFS?

У меня был основной вопрос в Импале. Мы знаем, что Impala позволяет запрашивать данные, хранящиеся в HDFS. Теперь, если файл разбит на несколько блоков, и, скажем, строка текста распределена по двум блокам. В Hive/MapReduce об этом позаботится RecordReader.

Как Impala читает запись в таком сценарии?

hdfs cloudera impala

user3031097 22.10.2014 источник

Ответы (1)

arrow_upward
2
arrow_downward

Ссылка на мой ответ в списке пользователей Impala:

Когда Impala находит незавершенную запись (например, это может произойти при сканировании определенных форматов файлов, таких как текстовые или rc-файлы), она продолжит постепенное чтение со следующего блока (блоков), пока не прочитает всю запись. Обратите внимание, что для этого может потребоваться небольшое количество «удаленных чтений» (чтение с удаленного узла данных), но обычно это очень небольшое количество по сравнению со всем блоком, который должен быть прочитан локально (и в идеале через чтение с коротким замыканием).

Matt 23.10.2014

comment

Было бы полезно предоставить ссылки на код, в котором вызывается это удаленное чтение. - Jeff Hammerbacher; 30.10.2014

Cloudera Impala: как он считывает данные из блоков HDFS?

Ответы (1)

Похожие вопросы