Публикации по теме 'stormcrawler'


Веб-парсинг и индексирование с помощью StormCrawler и Elasticsearch
Совсем недавно я начал работать над требованием, которое заключается в добавлении компонента поиска на каждый веб-сайт, который клиенты публикуют через наше приложение. Чтобы добавить компонент поиска на веб-сайт, сложной задачей было бы очистить данные веб-сайта и соответствующим образом их проиндексировать. На этом этапе я провел небольшое исследование существующих веб-сканеров, поисковых индексов и, основываясь на результатах, решил использовать StormCrawler, который представляет..

Вопросы по теме 'stormcrawler'

Могу ли я хранить html-контент веб-страницы в Storm Crawler?
Я использую strom-crawler-elastic . Я могу видеть полученные URL-адреса и их статус. Изменение конфигурации в файле ES_IndexInit.sh дает только URL, заголовок, хост, текст. Но могу ли я хранить весь HTML-контент с помощью HTML-тегов?
462 просмотров
schedule 31.01.2023

Обходной путь Stormcrawler для страниц с кодом http 405
Я хотел просканировать такую ​​веб-страницу, как эта . Кажется, у меня ошибка 405 2018-04-09 11:18:40.930 c.d.s.b.FetcherBolt FetcherThread #2 [INFO] [Fetcher #3] Fetched...
207 просмотров
schedule 14.12.2023

Использование RabbitMQ с Stormcrawler
Я хочу использовать RabbitMQ с StormCrawler. Я уже видел, что есть репозиторий для использования RabbitMQ со Storm: https://github.com/ppat/storm-rabbitmq Как бы вы использовали это для StormCrawler? Я хотел бы использовать как производителя,...
192 просмотров

StormCrawler выполняет действие после завершения сканирования одного домена
Я хочу выполнить действие (в моем случае отправить кортеж на один болт), когда сканер завершил сканирование одного домена. Я видел, что StormCrawler может даже повторно посещать веб-сайт через заданный интервал. В каком компоненте или как я могу...
160 просмотров
schedule 30.06.2022

Можно ли сканировать по тегу ‹body› в Stormcrawler?
Теперь я использую Stormcrawler для сканирования сайта. Я хочу знать, что в Storm Crawler можно сканировать по тегу <body> или чему-то другому, например <article> . Я изменил файл parsefilters.json, как показано ниже, но это не...
176 просмотров
schedule 11.03.2022

как использовать быстрые фильтры URL в StormCrawler?
Я наткнулся на быстрые фильтры URL. он дает несколько вариантов, таких как применение фильтров к определенному домену. Может ли кто-нибудь более подробно рассказать об его использовании и о том, как настроить его в url filters.json?
243 просмотров
schedule 06.11.2022

Следит ли Stormcrawler за загрузку вторичного содержимого страницы JavaScript?
Глядя на мои очищенные результаты для webmd.com, кажется, что это не так, и я полагаю, что это слишком сложно, так как это было бы очень сложно. Но я решил, что все равно попрошу перепроверить. Итак, если у меня есть страница, которая использует...
165 просмотров
schedule 09.03.2022

StormCrawler ОТКРОЙТЕ и ПОЛУЧАЙТЕ веб-сайт, но ничего не сохраняется в документах
Есть веб-сайт, который я пытаюсь сканировать, поисковый робот ОБНАРУЖИВАЕТ и ПОЛУЧАЕТ URL-адреса, но в документах ничего нет. это сайт https://cactussara.ir . в чем проблема?! И это robots.txt этого веб-сайта: User-agent: * Disallow: /...
428 просмотров
schedule 18.04.2023