Есть ли способ продолжить задание Nutch Crawl, которое было неожиданно убито?

У меня есть задача обхода Nutch, которая выполнялась целый день, пока я не убил процесс по ошибке.

Я не хочу повторно сканировать семена (стоит много времени), поэтому мне интересно, есть ли способ или какие-то параметры Nutch Crawler могут заставить сканер игнорировать те URL-адреса, которые уже были просканированы.

Большое спасибо !

WoooHaaaa 07.04.2012 источник

Ответы (1)

arrow_upward
0
arrow_downward

После того, как вы начали сканирование, в выходном каталоге могут быть созданы некоторые сегменты. Используйте команду bin/nutch и укажите параметр -dir на выходной каталог предыдущего запуска. Для аргумента urlDir создайте фиктивный с одним URL-адресом (только для того, чтобы избежать ошибки, если в urldir нет URL-адреса).

Tejas Patil 08.04.2012

Есть ли способ продолжить задание Nutch Crawl, которое было неожиданно убито?

Ответы (1)

Похожие вопросы