У меня есть проект, который требует от меня обработки большого количества (1000-10000) больших (от 100 МБ до 500 МБ) изображений. Обработку, которую я делаю, можно выполнить с помощью Imagemagick, но я надеялся выполнить эту обработку на платформе Amazon Elastic MapReduce (которая, как я полагаю, работает с использованием Hadoop).
Из всех примеров, которые я нашел, все они имеют дело с текстовым вводом (я нашел этот образец Word Count миллиард раз). Я ничего не могу найти об этом виде работы с Hadoop: начинать с набора файлов, выполнять одно и то же действие с каждым из файлов, а затем записывать вывод нового файла как свой собственный файл.
Я почти уверен, что это можно сделать с помощью этой платформы, и это должно быть сделано с помощью Bash; Я не думаю, что мне нужно создавать целое Java-приложение или что-то в этом роде, но я могу ошибаться.
Я не прошу кого-то передать мне код, но если у кого-то есть образец кода или ссылки на учебные пособия, посвященные подобным проблемам, я был бы очень признателен...