Сканирование перенаправлений позже с помощью Nutch

nutch-default.xml предполагает, что есть способ сохранить место назначения перенаправления при первом обходе и обходить его при следующем обходе, установив для http.redirect.max значение 0.

Первое сканирование завершилось успешно, и мы могли видеть ответ перенаправления в сохраненных сегментах. Затем мы попытались обновить базу данных обхода, чтобы добавить пункт назначения перенаправления в следующий список выборки, но мы не смогли включить их — список выборки казался в основном пустым, всего несколько URL-адресов, которые nutch не удалось просканировать на первое сканирование.

Есть ли параметр/конфигурация, которые нам нужно указать во время синтаксического анализа/обновления/генерации?


person Enno Shioji    schedule 17.09.2012    source источник


Ответы (1)


Необходимо увеличить параметр topN, чтобы все URL-адреса попадали в список загрузки. Выбор URL-адресов во 2-м раунде основан на баллах URL-адресов... я думаю, что его нельзя изменить.

person Tejas Patil    schedule 23.09.2012
comment
Привет, Теджас, если вы runtime/local/bin/nutch generate crawl/crawldb crawl/segments без параметра topN, он просто сгенерирует все, спасибо - person B.Mr.W.; 12.07.2014