Когда я запускаю сканер Apache Nutch 1.4, я хочу сохранить некоторую дополнительную информацию. Я хочу сохранить родителя каждого URL-адреса.
Например, я хочу просканировать страницу a.html с двумя якорными ссылками на b.html и c.html. Поэтому, когда я просканирую a.html, я должен получить что-то вроде этого:
a.html null
b.html a.html
c.html a.html
Я хочу хранить что-то вроде этого. Я читал, как работает nutch, и запускал nutch в eclipse. Я также прочитал fetcher.java и зарегистрировал, где он извлекал содержимое. Но мне не удалось узнать, откуда Nutch получает дочерние URL-адреса данной страницы. Я думаю, что этот шаг происходит после шага синтаксического анализа.