Статьи по теме stormcrawler

Публикации по теме 'stormcrawler'

Веб-парсинг и индексирование с помощью StormCrawler и Elasticsearch

Совсем недавно я начал работать над требованием, которое заключается в добавлении компонента поиска на каждый веб-сайт, который клиенты публикуют через наше приложение. Чтобы добавить компонент поиска на веб-сайт, сложной задачей было бы очистить данные веб-сайта и соответствующим образом их проиндексировать. На этом этапе я провел небольшое исследование существующих веб-сканеров, поисковых индексов и, основываясь на результатах, решил использовать StormCrawler, который представляет..

Вопросы по теме 'stormcrawler'

Могу ли я хранить html-контент веб-страницы в Storm Crawler?

Я использую strom-crawler-elastic . Я могу видеть полученные URL-адреса и их статус. Изменение конфигурации в файле ES_IndexInit.sh дает только URL, заголовок, хост, текст. Но могу ли я хранить весь HTML-контент с помощью HTML-тегов?

462 просмотров

web-crawler stormcrawler

31.01.2023

Обходной путь Stormcrawler для страниц с кодом http 405

Я хотел просканировать такую веб-страницу, как эта . Кажется, у меня ошибка 405 2018-04-09 11:18:40.930 c.d.s.b.FetcherBolt FetcherThread #2 [INFO] [Fetcher #3] Fetched...

207 просмотров

web-crawler stormcrawler

14.12.2023

Использование RabbitMQ с Stormcrawler

Я хочу использовать RabbitMQ с StormCrawler. Я уже видел, что есть репозиторий для использования RabbitMQ со Storm: https://github.com/ppat/storm-rabbitmq Как бы вы использовали это для StormCrawler? Я хотел бы использовать как производителя,...

192 просмотров

rabbitmq web-crawler apache-storm stormcrawler

08.08.2023

StormCrawler выполняет действие после завершения сканирования одного домена

Я хочу выполнить действие (в моем случае отправить кортеж на один болт), когда сканер завершил сканирование одного домена. Я видел, что StormCrawler может даже повторно посещать веб-сайт через заданный интервал. В каком компоненте или как я могу...

160 просмотров

java web-crawler stormcrawler

30.06.2022

Можно ли сканировать по тегу ‹body› в Stormcrawler?

Теперь я использую Stormcrawler для сканирования сайта. Я хочу знать, что в Storm Crawler можно сканировать по тегу <body> или чему-то другому, например <article> . Я изменил файл parsefilters.json, как показано ниже, но это не...

176 просмотров

web-crawler stormcrawler

11.03.2022

как использовать быстрые фильтры URL в StormCrawler?

Я наткнулся на быстрые фильтры URL. он дает несколько вариантов, таких как применение фильтров к определенному домену. Может ли кто-нибудь более подробно рассказать об его использовании и о том, как настроить его в url filters.json?

243 просмотров

web-crawler apache-storm stormcrawler

06.11.2022

Следит ли Stormcrawler за загрузку вторичного содержимого страницы JavaScript?

Глядя на мои очищенные результаты для webmd.com, кажется, что это не так, и я полагаю, что это слишком сложно, так как это было бы очень сложно. Но я решил, что все равно попрошу перепроверить. Итак, если у меня есть страница, которая использует...

165 просмотров

web-crawler stormcrawler nutch

09.03.2022

StormCrawler ОТКРОЙТЕ и ПОЛУЧАЙТЕ веб-сайт, но ничего не сохраняется в документах

Есть веб-сайт, который я пытаюсь сканировать, поисковый робот ОБНАРУЖИВАЕТ и ПОЛУЧАЕТ URL-адреса, но в документах ничего нет. это сайт https://cactussara.ir . в чем проблема?! И это robots.txt этого веб-сайта: User-agent: * Disallow: /...

428 просмотров

stormcrawler

18.04.2023

Публикации по теме 'stormcrawler'

Веб-парсинг и индексирование с помощью StormCrawler и Elasticsearch

Вопросы по теме 'stormcrawler'

Похожие вопросы