Вопросы по теме 'heritrix'
Как исключить все, кроме text/html, из обхода heritrix?
На: Случаи использования Heritrix есть вариант использования для "Только хранить успешные HTML-страницы"
Моя проблема: я не знаю, как реализовать это в моем файле cxml. Особенно: добавление ContentTypeRegExpFilter в ARCWriterProcessor =>...
2842 просмотров
schedule
24.12.2022
Какой поисковый робот на основе Java подходит для академического проекта по созданию поисковой системы?
Итак, последние два дня я искал краулер, который соответствовал бы моим потребностям. Я хочу создать поисковую систему и сам хочу делать индексацию. Это будет частью академического проекта. Хотя у меня нет вычислительной мощности, чтобы сканировать...
809 просмотров
schedule
08.01.2024
Heritrix 3.2.0: Написание и добавление расширений
В настоящее время я работаю с Heritrix, и у меня есть стандартная установка (эта: http://builds.archive.org/maven2/org/archive/heritrix/heritrix/3.2.0/ ), и он отлично работает.
Но теперь я хочу написать и добавить свои собственные расширения,...
229 просмотров
schedule
29.07.2023