Я хотел просканировать веб-сайт, но сохранить только те веб-страницы, например:
Тип A: http://mywebsite.com/page.html.
любые другие ссылки вроде. : http://mywebsite.com/a/b/ или http://mywebsite.com/a/ или что-то подобное должно быть в очереди на обработку, но их следует использовать только для получения большего url любит "тип A", но не хранится.
Как использовать регулярное выражение в regex-urlfilter.txt в Nutch.
или в RegexUrlNormalizer.xml
«Я думаю, что сканирование в целом было бы лучшим вариантом. Но я также хочу, чтобы это было во время сканирования. Если URL-адрес имеет якорные ссылки, такие как Тип A: http://mywebsite.com/page.html. Я хочу сохранить ссылку A, полученную через эту веб-страницу. Поэтому после сканирования я могу удалить страницы и получить только страницы типа A, а у меня что веб-страница этого типа была получена с какой конкретной веб-страницы. Могу ли я настроить Nutch для этого?, Если да, некоторые подсказки. Нужно ли мне изменять исходный код. Написать свой собственный плагин на nutch.? "