У меня есть задача обхода Nutch, которая выполнялась целый день, пока я не убил процесс по ошибке.
Я не хочу повторно сканировать семена (стоит много времени), поэтому мне интересно, есть ли способ или какие-то параметры Nutch Crawler могут заставить сканер игнорировать те URL-адреса, которые уже были просканированы.
Большое спасибо !