Я использую Nutch для индексации сайта. Я заметил, что Nutch просканировал некоторые нежелательные веб-страницы, такие как http://******/category/events/2015- 11. Эта веб-страница о событии, произошедшем в 2015, 11. Для меня это полная ерунда. Я хочу знать, может ли Nutch разумно пропускать такие веб-страницы. Можно возразить, что я могу использовать Regex, чтобы избежать этого. Однако, поскольку шаблон именования веб-страниц календаря не всегда одинаков, для этого невозможно написать идеальное регулярное выражение. Я знаю, что Heritrix (сканер интернет-архивов) имеет такие возможности, чтобы избежать сканирования бессмысленной веб-страницы календаря. Кто-нибудь решает эту проблему?
Как настроить Nutch, чтобы избежать сканирования бессмысленной веб-страницы календаря
Ответы (1)
Нет другого способа, кроме фильтрации URL-адресов регулярных выражений, который может это сделать. Вы можете продолжать добавлять новые шаблоны в файл регулярных выражений всякий раз, когда вы видите, что нежелательная страница проходит через просканированный контент.
person
Tejas Patil
schedule
06.05.2012
Так что, похоже, нет разумного способа сделать это.
- person Xiao; 10.05.2012