Формат ввода Hadoop для Excel

Мне нужно создать программу для уменьшения карты, которая читает файл Excel из HDFS и выполняет некоторый анализ. Оттуда сохраните вывод в формате файла excel. Я знаю, что TextInputFormat используется для чтения файла .txt из HDFS, но какой метод или какой формат ввода мне следует использовать?


person Surender Raja    schedule 17.02.2014    source источник
comment
Каков вариант использования? Это один входной файл? Каков его размер? Вы используете его в приложении Excel или просто используете формат? Работа с Excel подходит для относительно небольших файлов Работа с hadoop подходит для очень больших наборов данных   -  person Ophir Yoktan    schedule 17.02.2014
comment
Мне нужно получить только одно поле Excel из HDFS. Размер файла 1913 КБ. мне нужно обработать этот файл в псевдораспределенном одномодовом кластере.   -  person Surender Raja    schedule 17.02.2014
comment
Можем ли мы прочитать этот файл Excel непосредственно из кластера Hadoop. Какой тип inputformat мне нужно использовать в конфигурации задания?   -  person Surender Raja    schedule 17.02.2014


Ответы (1)


Как правило, для этого сценария Hadoop является излишним, но некоторые соответствующие решения

  1. проанализировать файл извне и преобразовать в формат, совместимый с Hadoop

  2. прочитать весь файл как одну запись см. этот ответ

  3. использовать два связанных задания. 1-й, как и во 2-м, читает файл массово и выдает каждую запись в качестве входных данных для следующего задания.

person Ophir Yoktan    schedule 17.02.2014