Я пытаюсь создать веб-сканер, который непрерывно сканирует Интернет в поисках веб-страниц, содержащих определенные ключевые слова. Для этого существует множество решений с открытым исходным кодом (Nutch, Scrapy и т. Д.), Но мне нужно интеллектуальное решение, которое может отдавать приоритет «богатым» источникам.
Я хочу, чтобы бот запускался с определенной страницы, например. http://www.dmoz.org, извлеките все ссылки и продолжите их очистку. Теперь, если страница содержит определенное ключевое слово, например. 'foo', он должен отправить этот URL в базу данных.
А теперь самое сложное. Если я создам и запустил такого бота, ему может пройти много времени, прежде чем паук найдет новые страницы, содержащие указанные ключевые слова, поскольку он сканирует всю сеть. Этот процесс был бы значительно быстрее, если бы паук мог определить, в каком домене он часто находит ключевые слова, чтобы их можно было сканировать чаще.
Есть ли для этого решение с открытым исходным кодом?
Пока смотрел Nutch и Scrapy. Nutch кажется лучшим вариантом для того, что мне нужно, но у меня нет опыта работы с Java, и я не могу найти какой-либо конкретной документации по этой проблеме.