загрузить данные в секционированную таблицу impala

У меня есть данные в HDFS в следующей структуре каталога:

/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2
                                 part-m-00001.bz2
                                 part-m-00003.bz2
.
.
.
.
/exported/2014/08/01/09/SEARCHES/part-m-00005 .bz2

в каждом подкаталоге есть несколько файлов частей.

Я хочу загрузить этот набор данных в таблицу impala, поэтому используйте следующий запрос для создания таблицы:

СОЗДАТЬ ВНЕШНЮЮ ТАБЛИЦУ поиск (отметка времени, TIMESTAMP, ..... url STRING, домен STRING) РАЗДЕЛЕНИЕ ПО (INT год, месяц INT, день INT. Час INT) формат строки поля с разделителями, заканчивающиеся символом '\ t';

потом

ALTER TABLE search ADD PARTITION (year=2014, month=08, day=01) LOCATION '/data/jobs/exported/2014/08/01/*/SEARCHES/';

Но не удалось загрузить со следующей ошибкой:

ERROR: AnalysisException: Failed to load metadata for table: magneticbi.search_mmx
CAUSED BY: TableLoadingException: Failed to load metadata for table: search_mmx
CAUSED BY: RuntimeException: Compressed text files are not supported: part-m-00000.bz2

не уверен, как это сделать правильно.

Кто-нибудь может в этом помочь?

Спасибо


person roy    schedule 21.08.2014    source источник


Ответы (1)


Вот ссылка к таблице от Cloudera, которая описывает ваши варианты. Обобщить:

Impala поддерживает следующие кодеки сжатия:

  • Быстро. Рекомендуется за эффективный баланс между степенью сжатия и скоростью декомпрессии. Мгновенное сжатие выполняется очень быстро, но GZIP обеспечивает большую экономию места. Не поддерживается для текстовых файлов.
  • GZIP. Рекомендуется при достижении максимального уровня сжатия (и, следовательно, максимальной экономии дискового пространства). Не поддерживается для текстовых файлов. Сдуть. Не поддерживается для текстовых файлов.
  • BZIP2. Не поддерживается для текстовых файлов.
  • LZO, только для текстовых файлов. Impala может запрашивать LZO-сжатые текстовые таблицы, но в настоящее время не может создавать их или вставлять в них данные; выполнить эти операции в Hive.
person J Maurer    schedule 22.08.2014