Nutch Crawling с использованием Regex

Я хотел просканировать веб-сайт, но сохранить только те веб-страницы, например:

Тип A: http://mywebsite.com/page.html.

любые другие ссылки вроде. : http://mywebsite.com/a/b/ или http://mywebsite.com/a/ или что-то подобное должно быть в очереди на обработку, но их следует использовать только для получения большего url любит "тип A", но не хранится.

Как использовать регулярное выражение в regex-urlfilter.txt в Nutch.

или в RegexUrlNormalizer.xml

«Я думаю, что сканирование в целом было бы лучшим вариантом. Но я также хочу, чтобы это было во время сканирования. Если URL-адрес имеет якорные ссылки, такие как Тип A: http://mywebsite.com/page.html. Я хочу сохранить ссылку A, полученную через эту веб-страницу. Поэтому после сканирования я могу удалить страницы и получить только страницы типа A, а у меня что веб-страница этого типа была получена с какой конкретной веб-страницы. Могу ли я настроить Nutch для этого?, Если да, некоторые подсказки. Нужно ли мне изменять исходный код. Написать свой собственный плагин на nutch.? "


person jacob    schedule 18.05.2012    source источник
comment
Можете ли вы опубликовать еще несколько примеров того, какие вещи вы пытаетесь сопоставить, а какие нет?   -  person sam    schedule 18.05.2012


Ответы (2)


Я ничего не знаю о Nutch, но могу помочь с регулярным выражением. Согласно моему комментарию выше, сейчас мне ясно, что именно вы хотите сопоставить.

Из примеров, которые у вас есть:

".*\.html" will match anything that ends ".html"
person sam    schedule 18.05.2012
comment
Привет Сэм . Мне нужны такие веб-страницы, как - mywebsite.com/anything.html. Поэтому я думаю, что регулярным выражением будет mywebsite.com * .html. Что ты говоришь ?? - person jacob; 21.05.2012

Вам нужен http://mywebsite.com/a/b/ или http://mywebsite.com/a/ для сканирования и сохранения только URL-адресов типа A, т. е. http://mywebsite.com/page.html?

И непонятно, что вы имеете в виду под хранением: это сегменты или crawldb? Обратите внимание, что если вы просканируете эти страницы для обнаружения URL-адресов типа A, контент БУДЕТ храниться в сегментах. Вы не можете избежать этого.

Мое предложение: сканировать все. Позже удалите ненужные вещи, установив файл urlfilter регулярного выражения и запустив updatedb и updatesegs.

person Tejas Patil    schedule 19.05.2012
comment
Извините за поздний ответ, я думаю, что сканирование в целом было бы лучшим вариантом. Но я тоже хочу этого при ползании. Если URL-адрес содержит ссылки привязки, например LINK A: mywebsite.com/page.html. Я хочу сохранить ссылку A, полученную через эту веб-страницу. Итак, после сканирования я могу удалить страницы и получить только страницы типа A, и у меня есть, что веб-страница этого типа A была получена с какой конкретной веб-страницы. Могу ли я настроить Nutch для этого? , Если да, то есть подсказки. Мне нужно изменить исходный код. Напишу свой собственный плагин на Nutch. ? - person jacob; 21.05.2012
comment
я никогда не слышал, чтобы это выполнялось Nutch .. вам нужно изменить исходный код. - person Tejas Patil; 22.05.2012