Я запускаю Nutch на Elastic MapReduce с 3 рабочими узлами. Я использую Nutch 1.4 с конфигурацией по умолчанию, с которой он поставляется (после добавления пользовательского агента).
Однако, несмотря на то, что я просматриваю список из 30 000 доменов, этап выборки выполняется только с одного рабочего узла, хотя этап синтаксического анализа выполняется на всех трех.
Как заставить его выполнять шаг выборки со всех трех узлов?
* РЕДАКТИРОВАТЬ * Проблема заключалась в том, что мне нужно было установить для свойства mapred.map.tasks размер моего кластера Hadoop. Вы можете найти это задокументированное здесь