Статьи по теме scrapy-spider

Вопросы по теме 'scrapy-spider'

Я хочу извлечь данные из http://community.sellfree.co.kr/ . Scrapy работает, однако, похоже, он очищает только start_urls и не сканирует никакие ссылки. Я бы хотел, чтобы паук обошел весь сайт. Вот мой код: from scrapy.spider import...

1321 просмотров

24.02.2022

Какая правильная форма работы с куками в scrapy

Я очень новичок, я работаю со scrapy в сети, которая использует файлы cookie. Это проблема для меня, потому что я могу получить данные из сети без файлов cookie, но получить данные из сети с файлами cookie для меня сложно. У меня есть эта структура...

1106 просмотров

python cookies xpath scrapy scrapy-spider

30.05.2022

Скрапинг с помощью scrapy

Я пытаюсь копнуть немного глубже с помощью scrapy, но могу получить только название того, что я очищаю, а не какие-либо детали. Вот код, который у меня есть до сих пор: from scrapy.spider import BaseSpider from scrapy.selector import...

523 просмотров

python web-scraping scrapy screen-scraping scrapy-spider

30.12.2022

парсинг нескольких страниц с помощью scrapy

Я пытаюсь использовать scrapy для очистки веб-сайта с несколькими страницами информации. мой код: from scrapy.spider import BaseSpider from scrapy.selector import Selector from tcgplayer1.items import Tcgplayer1Item class...

3702 просмотров

python web-scraping scrapy scrapy-spider

29.04.2024

python Scrapy CrawlSpider: правило не применяется после входа в систему, просматривается только первая страница

Я программист C/C++ с ограниченным опытом работы с Python в создании графиков и обработке текста. В настоящее время я работаю над проектом анализа личных данных и использую Scrapy для сканирования всех тем и информации о пользователях на форуме. Я...

1000 просмотров

python scrapy scrapy-spider

29.05.2022

расчет охвата скрап-веб-паука

Я пишу веб-пауков для удаления некоторых продуктов с веб-сайтов, используя структуру scrapy в python. Мне было интересно, как лучше всего рассчитать покрытие и недостающие элементы написанных пауков. То, что я использую прямо сейчас, — это...

145 просмотров

python web-scraping scrapy scrapy-spider

31.03.2023

Scrapy: парсинг списка ссылок

Этот вопрос является своего рода продолжением этого вопроса, который я задавал ранее. Я пытаюсь очистить веб-сайт, содержащий ссылки на первой странице. Что-то похожее на this . Теперь, поскольку я хочу очистить детали элементов,...

3733 просмотров

python web-scraping scrapy scrapy-spider

15.04.2022

При очистке с получением метода экземпляра ошибки нет атрибута '__getitem__'

Я не мог понять, что получаю эту ошибку -> метод экземпляра не имеет атрибута getitem. Я просто пытаюсь очистить этот сайт, чтобы извлечь названия отделов. import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector...

256 просмотров

python web-scraping web-crawler scrapy scrapy-spider

28.04.2024

Передать аргумент пауку scrapy в скрипте Python

Я могу запустить сканирование в скрипте Python со следующим рецептом из вики: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from...

6235 просмотров

python python-2.7 web-scraping scrapy scrapy-spider

25.08.2023

Ошибка Scrapy python - отсутствует схема в URL-адресе запроса

Я пытаюсь получить файл с FTP-сервера, защищенного паролем. Это код, который я использую: import scrapy from scrapy.contrib.spiders import XMLFeedSpider from scrapy.http import Request from crawler.items import CrawlerItem class...

2127 просмотров

python web-crawler scrapy scrapy-spider

23.08.2022

Паук падает при реализации конструктора

Я использую Scrapy для создания очень простого парсера веб-сайтов. Если мой подкласс Spider реализует конструктор, и я запускаю его, scrapy переходит в бесконечный цикл и не запускает паука. Почему это происходит и как я могу это исправить?...

56 просмотров

python web-scraping scrapy scrapy-spider

20.11.2023

Почему scrapy не сохраняет данные в mongodb?

Мой основной файл: import scrapy from scrapy.exceptions import CloseSpider from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.http import Request class...

1103 просмотров

python web-scraping mongodb scrapy scrapy-spider

09.09.2023

Scrapy `ReactorNotRestartable`: один класс для запуска двух (или более) пауков

Я собираю ежедневные данные с помощью Scrapy, используя двухэтапное сканирование. На первом этапе создается список URL-адресов со страницы индекса, а на втором этапе HTML-код для каждого URL-адреса в списке записывается в тему Kafka. Хотя два...

6889 просмотров

scrapy twisted scrapy-spider

28.12.2023

Scrapy не загружает данные, хотя xpath правильный

Я сканирую данные с http://www.shipspotting.com/gallery/search.php?limit=192&limitstart=2112&sortkey=p.lid&sortorder=desc&page_limit=192&viewtype=2 (только эта страница для проверки моего поискового робота). items.py import scrapy class...

205 просмотров

web-scraping xpath scrapy scrapy-spider

09.09.2022

Получить возвращаемое значение обратного вызова в scrapy — фреймворк python

Я ищу способ получать электронные письма со всех URL-адресов с веб-сайтов - в основном, index.php , contact.php и других URL-адресов. Мой сканер просматривает каждую страницу, делает запрос и извлекает электронные письма из исходного кода каждого...

1673 просмотров

python web-scraping scrapy screen-scraping scrapy-spider

18.09.2023

Scrapy- Как проверить, опубликована ли новая запись в блоге?

Scrapy — довольно интересный фреймворк. Пара вопросов у меня теперь есть: 1) В более раннем вопросе я выяснил, как извлечь все сообщения в блоге с помощью scrapy, но в решении есть сбой. Видите ли, сообщение в блоге обычно имеет URL-адрес...

256 просмотров

python python-2.7 web-scraping scrapy scrapy-spider

22.10.2023

Scrapy: хранить все внешние ссылки и сканировать все внутренние ссылки

Я работаю над парсером, который просматривает все внутренние ссылки с начального URL-адреса и собирает только внешние ссылки с scrapy . Однако моя главная проблема заключается в классификации внешних ссылок и внутренних ссылок. Например, когда я...

6275 просмотров

python web-scraping scrapy scrapy-spider

23.04.2023

Разница между скребком, краулером и пауком в контексте Scrapy

Пытаюсь прочитать код Scrapy. Слова scaper , crawler и spider сбивают с толку. Например scrapy.core.scraper scrapy.crawler scrapy.spiders Может ли кто-нибудь объяснить значения и различия этих терминов в контексте Scrapy ? Заранее...

2901 просмотров

web-crawler scrapy scrapy-spider

31.07.2022

Тестовый паук все еще работает - найдите изменения страницы

Как я могу протестировать паука scrapy на данных онлайн . Я сейчас из этот пост о том, что можно протестировать паука против офлайн данные. Моя цель — проверить, извлекает ли мой паук правильные данные со страницы или страница...

683 просмотров

unit-testing automated-tests scrapy scrapy-spider

05.02.2022

Scrapy + Splash + ScrapyJS

я использую Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 , и я все еще не могу отображать javascript одним щелчком мыши. Вот пример URL-адреса https://olx.pt/anuncio/loja-nova-com-250m2-garagem-em-box-fechada-para-arrumos-IDyTzAT.html#c49d3d94cf...

5929 просмотров

python scrapy screen-scraping scrapy-spider

14.09.2022

Вопросы по теме 'scrapy-spider'

Похожие вопросы