Есть ли способ продолжить задание Nutch Crawl, которое было неожиданно убито?

У меня есть задача обхода Nutch, которая выполнялась целый день, пока я не убил процесс по ошибке.

Я не хочу повторно сканировать семена (стоит много времени), поэтому мне интересно, есть ли способ или какие-то параметры Nutch Crawler могут заставить сканер игнорировать те URL-адреса, которые уже были просканированы.

Большое спасибо !


person WoooHaaaa    schedule 07.04.2012    source источник


Ответы (1)


После того, как вы начали сканирование, в выходном каталоге могут быть созданы некоторые сегменты. Используйте команду bin/nutch и укажите параметр -dir на выходной каталог предыдущего запуска. Для аргумента urlDir создайте фиктивный с одним URL-адресом (только для того, чтобы избежать ошибки, если в urldir нет URL-адреса).

person Tejas Patil    schedule 08.04.2012