Статьи по теме scrapy [optimization, storage, persistence, web-crawler, scrapy]

Вопросы по теме 'scrapy'

Самый оптимизированный способ хранения состояний сканера?

В настоящее время я пишу поисковый робот (используя фреймворк Python scrapy ). Недавно мне пришлось реализовать система паузы/возобновления. Решение, которое я реализовал, является самым простым и, по сути, сохраняет ссылки, когда они запланированы,...

508 просмотров

16.02.2024

Дополнительные символы, извлеченные с помощью XPath и Python (html)

Я использую XPath с scrapy для извлечения текста из тегов html в Интернете, но когда я это делаю, я получаю дополнительные символы. Пример: попытка извлечь число, например «204» из тега <td> , и получить [u'204'] . В некоторых случаях все...

2913 просмотров

python html scrapy

21.08.2023

Функция Python на основе Scrapy для полного обхода веб-сайта

Недавно я обнаружил Scrapy , который я считаю очень эффективным. Однако я действительно не понимаю, как встроить его в более крупный проект, написанный на питоне. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по...

1507 просмотров

python web-crawler scrapy

16.11.2022

Конвейер Scrapy Spider_opened и Spider_closed не вызывается

У меня возникли проблемы с скрап-конвейером. Моя информация очищается от сайтов в порядке, и метод process_item вызывается правильно. Однако методы spider_opened и spider_closed не вызываются. class MyPipeline(object): def __init__(self):...

6899 просмотров

python pipeline scrapy

26.06.2022

Почему scrapy выдает ошибку при попытке просканировать и проанализировать сайт?

Следующий код class SiteSpider(BaseSpider): name = "some_site.com" allowed_domains = ["some_site.com"] start_urls = [ "some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667", ] rules = (...

9120 просмотров

python scrapy twisted screen-scraping

03.12.2022

Как избежать дублирования в краулер

Я написал краулер, используя фреймворк scrapy в python, чтобы выбрать некоторые ссылки и метатеги. Затем он сканирует начальные URL-адреса и записывает данные в закодированном формате JSON в файл. Проблема в том, что когда краулер запускается два или...

1884 просмотров

python web-crawler scrapy

02.01.2024

URL-адреса сканирования Scrapy в порядке

Итак, моя проблема относительно проста. У меня есть один паук, сканирующий несколько сайтов, и мне нужно, чтобы он возвращал данные в том порядке, в котором я их записываю в своем коде. Это размещено ниже. from scrapy.spider import BaseSpider...

34101 просмотров

python hashmap asynchronous sorting scrapy

11.04.2022

Следующие ссылки, структура веб-краулера Scrapy

После нескольких прочтений документов Scrapy я до сих пор не уловил разницы между использованием правил CrawlSpider и реализацией собственного механизма извлечения ссылок в методе обратного вызова. Я собираюсь написать новый веб-сканер, используя...

6576 просмотров

python web-crawler scrapy

02.01.2024

Воспроизведите паука Scrapy на сохраненных данных

Я начал использовать Scrapy для парсинга нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в...

5464 просмотров

python web-crawler scrapy

03.07.2022

Использование Scrapy для сканирования URL-адресов на веб-странице

Я использую scrapy для извлечения данных с определенных веб-сайтов. Проблема в том, что мой паук может сканировать только веб-страницу с начальным start_urls , он не может сканировать URL-адреса на веб-странице. Я в точности скопировал того же паука:...

3100 просмотров

python web-crawler scrapy

05.05.2023

Сканирование нескольких начальных URL с разной глубиной

Я пытаюсь заставить Scrapy 0.12 изменить настройку «максимальной глубины» для другого URL-адреса в переменной start_urls в пауке. Если я правильно понимаю документацию, это невозможно, потому что параметр DEPTH_LIMIT является глобальным для всей...

912 просмотров

python scrapy

07.06.2024

Как объединить scrapy и htmlunit для сканирования URL-адресов с помощью javascript

Я работаю над Scrapy для сканирования страниц, однако я не могу обрабатывать страницы с помощью javascript. Люди предлагают мне использовать htmlunit, поэтому я установил его, но я вообще не знаю, как его использовать. Кто-нибудь может привести...

9173 просмотров

javascript scrapy htmlunit

08.10.2022

Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy

У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука. Спасибо

27781 просмотров

python web-crawler scrapy

01.10.2023

Как проще всего парсерам Scrapy соблюдать Crawl-Delay в robots.txt?

Есть ли параметр, который я могу переключить, или DownloaderMiddleware который я могу использовать для принудительного применения параметра Crawl-Delay файла robots.txt? Если нет, то как реализовать ограничение скорости в парсере?

1238 просмотров

robots.txt scrapy

05.09.2023

Можно ли получить доступ к реактору с помощью паука Scrapy?

Я ищу способы реализации задержек сканирования внутри пауков Scrapy. Мне было интересно, можно ли получить доступ к реактору callLater из паука? Это позволит легко анализировать страницу через n секунд.

768 просмотров

scrapy

22.08.2023

Измените каталог в python и извлеките имена файлов .html через паука scrapy

Я написал паука, который просматривает папку с именем fid и извлекает имена всех подпапок в виде ссылок. Теперь проблема в том, что в каждой из этих подпапок есть html-страница, и я хочу извлечь имена всех этих html-файлов и добавить к текущему...

241 просмотров

python scrapy

06.11.2023

Не знаете, что повторять с помощью Scrapy

У меня проблема с итерацией обхода с помощью scrapy. Я извлекаю поле заголовка и поле содержимого. Проблема в том, что я получаю файл JSON со всеми перечисленными заголовками, а затем со всем содержимым. Я хотел бы получить {title}, {content},...

1393 просмотров

python web-scraping scrapy

31.01.2024

сканирование нескольких веб-страниц с веб-сайта

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [...

1612 просмотров

python web-crawler scrapy

05.08.2023

Объединение базового URL с результирующим href в scrapy

ниже мой код паука, class Blurb2Spider(BaseSpider): name = "blurb2" allowed_domains = ["www.domain.com"] def start_requests(self): yield self.make_requests_from_url("http://www.domain.com/bookstore/new") def parse(self,...

18234 просмотров

python url scrapy

08.04.2024

Как получить маршрут xpath из текстовой выдержки

Учитывая HTML, как показано ниже: ...more html above... <div class="any_name"> <p>Element A goes here</p> <p>Element B goes here</p> </div> ...more html below... Мне нужно получить маршрут xpath любого...

297 просмотров

html xpath scrapy perl

17.05.2022

Вопросы по теме 'scrapy'

Похожие вопросы