Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря

Я использую Nutch для индексации сайта. Я заметил, что Nutch просканировал некоторые нежелательные веб-страницы, такие как http://******/category/events/2015- 11. Эта веб-страница о событии, произошедшем в 2015, 11. Для меня это полная ерунда. Я хочу знать, может ли Nutch разумно пропускать такие веб-страницы. Можно возразить, что я могу использовать Regex, чтобы избежать этого. Однако, поскольку шаблон именования веб-страниц календаря не всегда одинаков, для этого невозможно написать идеальное регулярное выражение. Я знаю, что Heritrix (сканер интернет-архивов) имеет такие возможности, чтобы избежать сканирования бессмысленной веб-страницы календаря. Кто-нибудь решает эту проблему?


person Xiao    schedule 04.05.2012    source источник


Ответы (1)


Нет другого способа, кроме фильтрации URL-адресов регулярных выражений, который может это сделать. Вы можете продолжать добавлять новые шаблоны в файл регулярных выражений всякий раз, когда вы видите, что нежелательная страница проходит через просканированный контент.

person Tejas Patil    schedule 06.05.2012
comment
Так что, похоже, нет разумного способа сделать это. - person Xiao; 10.05.2012