Вопросы по теме 'scrapy'

Самый оптимизированный способ хранения состояний сканера?
В настоящее время я пишу поисковый робот (используя фреймворк Python scrapy ). Недавно мне пришлось реализовать система паузы/возобновления. Решение, которое я реализовал, является самым простым и, по сути, сохраняет ссылки, когда они запланированы,...
508 просмотров

Дополнительные символы, извлеченные с помощью XPath и Python (html)
Я использую XPath с scrapy для извлечения текста из тегов html в Интернете, но когда я это делаю, я получаю дополнительные символы. Пример: попытка извлечь число, например «204» из тега <td> , и получить [u'204'] . В некоторых случаях все...
2913 просмотров
schedule 21.08.2023

Функция Python на основе Scrapy для полного обхода веб-сайта
Недавно я обнаружил Scrapy , который я считаю очень эффективным. Однако я действительно не понимаю, как встроить его в более крупный проект, написанный на питоне. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по...
1507 просмотров
schedule 16.11.2022

Конвейер Scrapy Spider_opened и Spider_closed не вызывается
У меня возникли проблемы с скрап-конвейером. Моя информация очищается от сайтов в порядке, и метод process_item вызывается правильно. Однако методы spider_opened и spider_closed не вызываются. class MyPipeline(object): def __init__(self):...
6899 просмотров
schedule 26.06.2022

Почему scrapy выдает ошибку при попытке просканировать и проанализировать сайт?
Следующий код class SiteSpider(BaseSpider): name = "some_site.com" allowed_domains = ["some_site.com"] start_urls = [ "some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667", ] rules = (...
9120 просмотров
schedule 03.12.2022

Как избежать дублирования в краулер
Я написал краулер, используя фреймворк scrapy в python, чтобы выбрать некоторые ссылки и метатеги. Затем он сканирует начальные URL-адреса и записывает данные в закодированном формате JSON в файл. Проблема в том, что когда краулер запускается два или...
1884 просмотров
schedule 02.01.2024

URL-адреса сканирования Scrapy в порядке
Итак, моя проблема относительно проста. У меня есть один паук, сканирующий несколько сайтов, и мне нужно, чтобы он возвращал данные в том порядке, в котором я их записываю в своем коде. Это размещено ниже. from scrapy.spider import BaseSpider...
34101 просмотров
schedule 11.04.2022

Следующие ссылки, структура веб-краулера Scrapy
После нескольких прочтений документов Scrapy я до сих пор не уловил разницы между использованием правил CrawlSpider и реализацией собственного механизма извлечения ссылок в методе обратного вызова. Я собираюсь написать новый веб-сканер, используя...
6576 просмотров
schedule 02.01.2024

Воспроизведите паука Scrapy на сохраненных данных
Я начал использовать Scrapy для парсинга нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в...
5464 просмотров
schedule 03.07.2022

Использование Scrapy для сканирования URL-адресов на веб-странице
Я использую scrapy для извлечения данных с определенных веб-сайтов. Проблема в том, что мой паук может сканировать только веб-страницу с начальным start_urls , он не может сканировать URL-адреса на веб-странице. Я в точности скопировал того же паука:...
3100 просмотров
schedule 05.05.2023

Сканирование нескольких начальных URL с разной глубиной
Я пытаюсь заставить Scrapy 0.12 изменить настройку «максимальной глубины» для другого URL-адреса в переменной start_urls в пауке. Если я правильно понимаю документацию, это невозможно, потому что параметр DEPTH_LIMIT является глобальным для всей...
912 просмотров
schedule 07.06.2024

Как объединить scrapy и htmlunit для сканирования URL-адресов с помощью javascript
Я работаю над Scrapy для сканирования страниц, однако я не могу обрабатывать страницы с помощью javascript. Люди предлагают мне использовать htmlunit, поэтому я установил его, но я вообще не знаю, как его использовать. Кто-нибудь может привести...
9173 просмотров
schedule 08.10.2022

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy
У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука. Спасибо
27781 просмотров
schedule 01.10.2023

Как проще всего парсерам Scrapy соблюдать Crawl-Delay в robots.txt?
Есть ли параметр, который я могу переключить, или DownloaderMiddleware который я могу использовать для принудительного применения параметра Crawl-Delay файла robots.txt? Если нет, то как реализовать ограничение скорости в парсере?
1238 просмотров
schedule 05.09.2023

Можно ли получить доступ к реактору с помощью паука Scrapy?
Я ищу способы реализации задержек сканирования внутри пауков Scrapy. Мне было интересно, можно ли получить доступ к реактору callLater из паука? Это позволит легко анализировать страницу через n секунд.
768 просмотров
schedule 22.08.2023

Измените каталог в python и извлеките имена файлов .html через паука scrapy
Я написал паука, который просматривает папку с именем fid и извлекает имена всех подпапок в виде ссылок. Теперь проблема в том, что в каждой из этих подпапок есть html-страница, и я хочу извлечь имена всех этих html-файлов и добавить к текущему...
241 просмотров
schedule 06.11.2023

Не знаете, что повторять с помощью Scrapy
У меня проблема с итерацией обхода с помощью scrapy. Я извлекаю поле заголовка и поле содержимого. Проблема в том, что я получаю файл JSON со всеми перечисленными заголовками, а затем со всем содержимым. Я хотел бы получить {title}, {content},...
1393 просмотров
schedule 31.01.2024

сканирование нескольких веб-страниц с веб-сайта
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [...
1612 просмотров
schedule 05.08.2023

Объединение базового URL с результирующим href в scrapy
ниже мой код паука, class Blurb2Spider(BaseSpider): name = "blurb2" allowed_domains = ["www.domain.com"] def start_requests(self): yield self.make_requests_from_url("http://www.domain.com/bookstore/new") def parse(self,...
18234 просмотров
schedule 08.04.2024

Как получить маршрут xpath из текстовой выдержки
Учитывая HTML, как показано ниже: ...more html above... <div class="any_name"> <p>Element A goes here</p> <p>Element B goes here</p> </div> ...more html below... Мне нужно получить маршрут xpath любого...
297 просмотров
schedule 17.05.2022