Мне нужно создать программу для уменьшения карты, которая читает файл Excel из HDFS и выполняет некоторый анализ. Оттуда сохраните вывод в формате файла excel. Я знаю, что TextInputFormat используется для чтения файла .txt из HDFS, но какой метод или какой формат ввода мне следует использовать?
Формат ввода Hadoop для Excel
comment
Каков вариант использования? Это один входной файл? Каков его размер? Вы используете его в приложении Excel или просто используете формат? Работа с Excel подходит для относительно небольших файлов Работа с hadoop подходит для очень больших наборов данных
- person Ophir Yoktan   schedule 17.02.2014
comment
Мне нужно получить только одно поле Excel из HDFS. Размер файла 1913 КБ. мне нужно обработать этот файл в псевдораспределенном одномодовом кластере.
- person Surender Raja   schedule 17.02.2014
comment
Можем ли мы прочитать этот файл Excel непосредственно из кластера Hadoop. Какой тип inputformat мне нужно использовать в конфигурации задания?
- person Surender Raja   schedule 17.02.2014
Ответы (1)
Как правило, для этого сценария Hadoop является излишним, но некоторые соответствующие решения
проанализировать файл извне и преобразовать в формат, совместимый с Hadoop
прочитать весь файл как одну запись см. этот ответ
использовать два связанных задания. 1-й, как и во 2-м, читает файл массово и выдает каждую запись в качестве входных данных для следующего задания.
person
Ophir Yoktan
schedule
17.02.2014