Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря

Я использую Nutch для индексации сайта. Я заметил, что Nutch просканировал некоторые нежелательные веб-страницы, такие как http://******/category/events/2015- 11. Эта веб-страница о событии, произошедшем в 2015, 11. Для меня это полная ерунда. Я хочу знать, может ли Nutch разумно пропускать такие веб-страницы. Можно возразить, что я могу использовать Regex, чтобы избежать этого. Однако, поскольку шаблон именования веб-страниц календаря не всегда одинаков, для этого невозможно написать идеальное регулярное выражение. Я знаю, что Heritrix (сканер интернет-архивов) имеет такие возможности, чтобы избежать сканирования бессмысленной веб-страницы календаря. Кто-нибудь решает эту проблему?

calendar nutch

Xiao 04.05.2012 источник

Ответы (1)

arrow_upward
1
arrow_downward

Нет другого способа, кроме фильтрации URL-адресов регулярных выражений, который может это сделать. Вы можете продолжать добавлять новые шаблоны в файл регулярных выражений всякий раз, когда вы видите, что нежелательная страница проходит через просканированный контент.

Tejas Patil 06.05.2012

comment

Так что, похоже, нет разумного способа сделать это. - Xiao; 10.05.2012

Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря

Ответы (1)

Похожие вопросы