Вопросы по теме 'scrapy'
Самый оптимизированный способ хранения состояний сканера?
В настоящее время я пишу поисковый робот (используя фреймворк Python scrapy ). Недавно мне пришлось реализовать система паузы/возобновления. Решение, которое я реализовал, является самым простым и, по сути, сохраняет ссылки, когда они запланированы,...
508 просмотров
schedule
16.02.2024
Дополнительные символы, извлеченные с помощью XPath и Python (html)
Я использую XPath с scrapy для извлечения текста из тегов html в Интернете, но когда я это делаю, я получаю дополнительные символы. Пример: попытка извлечь число, например «204» из тега <td> , и получить [u'204'] . В некоторых случаях все...
2913 просмотров
schedule
21.08.2023
Функция Python на основе Scrapy для полного обхода веб-сайта
Недавно я обнаружил Scrapy , который я считаю очень эффективным. Однако я действительно не понимаю, как встроить его в более крупный проект, написанный на питоне. Я хотел бы создать паука обычным способом, но иметь возможность запускать его по...
1507 просмотров
schedule
16.11.2022
Конвейер Scrapy Spider_opened и Spider_closed не вызывается
У меня возникли проблемы с скрап-конвейером. Моя информация очищается от сайтов в порядке, и метод process_item вызывается правильно. Однако методы spider_opened и spider_closed не вызываются.
class MyPipeline(object):
def __init__(self):...
6899 просмотров
schedule
26.06.2022
Почему scrapy выдает ошибку при попытке просканировать и проанализировать сайт?
Следующий код
class SiteSpider(BaseSpider):
name = "some_site.com"
allowed_domains = ["some_site.com"]
start_urls = [
"some_site.com/something/another/PRODUCT-CATEGORY1_10652_-1__85667",
]
rules = (...
9120 просмотров
schedule
03.12.2022
Как избежать дублирования в краулер
Я написал краулер, используя фреймворк scrapy в python, чтобы выбрать некоторые ссылки и метатеги. Затем он сканирует начальные URL-адреса и записывает данные в закодированном формате JSON в файл. Проблема в том, что когда краулер запускается два или...
1884 просмотров
schedule
02.01.2024
URL-адреса сканирования Scrapy в порядке
Итак, моя проблема относительно проста. У меня есть один паук, сканирующий несколько сайтов, и мне нужно, чтобы он возвращал данные в том порядке, в котором я их записываю в своем коде. Это размещено ниже.
from scrapy.spider import BaseSpider...
34101 просмотров
schedule
11.04.2022
Следующие ссылки, структура веб-краулера Scrapy
После нескольких прочтений документов Scrapy я до сих пор не уловил разницы между использованием правил CrawlSpider и реализацией собственного механизма извлечения ссылок в методе обратного вызова.
Я собираюсь написать новый веб-сканер, используя...
6576 просмотров
schedule
02.01.2024
Воспроизведите паука Scrapy на сохраненных данных
Я начал использовать Scrapy для парсинга нескольких веб-сайтов. Если я позже добавлю новое поле в свою модель или изменю свои функции синтаксического анализа, я хотел бы иметь возможность «воспроизвести» загруженные необработанные данные в...
5464 просмотров
schedule
03.07.2022
Использование Scrapy для сканирования URL-адресов на веб-странице
Я использую scrapy для извлечения данных с определенных веб-сайтов. Проблема в том, что мой паук может сканировать только веб-страницу с начальным start_urls , он не может сканировать URL-адреса на веб-странице. Я в точности скопировал того же паука:...
3100 просмотров
schedule
05.05.2023
Сканирование нескольких начальных URL с разной глубиной
Я пытаюсь заставить Scrapy 0.12 изменить настройку «максимальной глубины» для другого URL-адреса в переменной start_urls в пауке.
Если я правильно понимаю документацию, это невозможно, потому что параметр DEPTH_LIMIT является глобальным для всей...
912 просмотров
schedule
07.06.2024
Как объединить scrapy и htmlunit для сканирования URL-адресов с помощью javascript
Я работаю над Scrapy для сканирования страниц, однако я не могу обрабатывать страницы с помощью javascript. Люди предлагают мне использовать htmlunit, поэтому я установил его, но я вообще не знаю, как его использовать. Кто-нибудь может привести...
9173 просмотров
schedule
08.10.2022
Как я могу использовать разные конвейеры для разных пауков в одном проекте Scrapy
У меня есть проект scrapy, который содержит несколько пауков. Есть ли способ определить, какие конвейеры использовать для какого паука? Не все конвейеры, которые я определил, применимы для каждого паука.
Спасибо
27781 просмотров
schedule
01.10.2023
Как проще всего парсерам Scrapy соблюдать Crawl-Delay в robots.txt?
Есть ли параметр, который я могу переключить, или DownloaderMiddleware который я могу использовать для принудительного применения параметра Crawl-Delay файла robots.txt? Если нет, то как реализовать ограничение скорости в парсере?
1238 просмотров
schedule
05.09.2023
Можно ли получить доступ к реактору с помощью паука Scrapy?
Я ищу способы реализации задержек сканирования внутри пауков Scrapy. Мне было интересно, можно ли получить доступ к реактору callLater из паука? Это позволит легко анализировать страницу через n секунд.
768 просмотров
schedule
22.08.2023
Измените каталог в python и извлеките имена файлов .html через паука scrapy
Я написал паука, который просматривает папку с именем fid и извлекает имена всех подпапок в виде ссылок. Теперь проблема в том, что в каждой из этих подпапок есть html-страница, и я хочу извлечь имена всех этих html-файлов и добавить к текущему...
241 просмотров
schedule
06.11.2023
Не знаете, что повторять с помощью Scrapy
У меня проблема с итерацией обхода с помощью scrapy. Я извлекаю поле заголовка и поле содержимого. Проблема в том, что я получаю файл JSON со всеми перечисленными заголовками, а затем со всем содержимым. Я хотел бы получить {title}, {content},...
1393 просмотров
schedule
31.01.2024
сканирование нескольких веб-страниц с веб-сайта
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [...
1612 просмотров
schedule
05.08.2023
Объединение базового URL с результирующим href в scrapy
ниже мой код паука,
class Blurb2Spider(BaseSpider):
name = "blurb2"
allowed_domains = ["www.domain.com"]
def start_requests(self):
yield self.make_requests_from_url("http://www.domain.com/bookstore/new")
def parse(self,...
18234 просмотров
schedule
08.04.2024
Как получить маршрут xpath из текстовой выдержки
Учитывая HTML, как показано ниже:
...more html above...
<div class="any_name">
<p>Element A goes here</p>
<p>Element B goes here</p>
</div>
...more html below...
Мне нужно получить маршрут xpath любого...
297 просмотров
schedule
17.05.2022