Вопросы по теме 'scrapy-spider'

scrapy не просканировал всю ссылку
Я хочу извлечь данные из http://community.sellfree.co.kr/ . Scrapy работает, однако, похоже, он очищает только start_urls и не сканирует никакие ссылки. Я бы хотел, чтобы паук обошел весь сайт. Вот мой код: from scrapy.spider import...
1321 просмотров
schedule 24.02.2022

Какая правильная форма работы с куками в scrapy
Я очень новичок, я работаю со scrapy в сети, которая использует файлы cookie. Это проблема для меня, потому что я могу получить данные из сети без файлов cookie, но получить данные из сети с файлами cookie для меня сложно. У меня есть эта структура...
1106 просмотров
schedule 30.05.2022

Скрапинг с помощью scrapy
Я пытаюсь копнуть немного глубже с помощью scrapy, но могу получить только название того, что я очищаю, а не какие-либо детали. Вот код, который у меня есть до сих пор: from scrapy.spider import BaseSpider from scrapy.selector import...
523 просмотров

парсинг нескольких страниц с помощью scrapy
Я пытаюсь использовать scrapy для очистки веб-сайта с несколькими страницами информации. мой код: from scrapy.spider import BaseSpider from scrapy.selector import Selector from tcgplayer1.items import Tcgplayer1Item class...
3702 просмотров
schedule 29.04.2024

python Scrapy CrawlSpider: правило не применяется после входа в систему, просматривается только первая страница
Я программист C/C++ с ограниченным опытом работы с Python в создании графиков и обработке текста. В настоящее время я работаю над проектом анализа личных данных и использую Scrapy для сканирования всех тем и информации о пользователях на форуме. Я...
1000 просмотров
schedule 29.05.2022

расчет охвата скрап-веб-паука
Я пишу веб-пауков для удаления некоторых продуктов с веб-сайтов, используя структуру scrapy в python. Мне было интересно, как лучше всего рассчитать покрытие и недостающие элементы написанных пауков. То, что я использую прямо сейчас, — это...
145 просмотров
schedule 31.03.2023

Scrapy: парсинг списка ссылок
Этот вопрос является своего рода продолжением этого вопроса, который я задавал ранее. Я пытаюсь очистить веб-сайт, содержащий ссылки на первой странице. Что-то похожее на this . Теперь, поскольку я хочу очистить детали элементов,...
3733 просмотров
schedule 15.04.2022

При очистке с получением метода экземпляра ошибки нет атрибута '__getitem__'
Я не мог понять, что получаю эту ошибку -> метод экземпляра не имеет атрибута getitem. Я просто пытаюсь очистить этот сайт, чтобы извлечь названия отделов. import scrapy from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.selector...
256 просмотров

Передать аргумент пауку scrapy в скрипте Python
Я могу запустить сканирование в скрипте Python со следующим рецептом из вики: from twisted.internet import reactor from scrapy.crawler import Crawler from scrapy import log, signals from testspiders.spiders.followall import FollowAllSpider from...
6235 просмотров

Ошибка Scrapy python - отсутствует схема в URL-адресе запроса
Я пытаюсь получить файл с FTP-сервера, защищенного паролем. Это код, который я использую: import scrapy from scrapy.contrib.spiders import XMLFeedSpider from scrapy.http import Request from crawler.items import CrawlerItem class...
2127 просмотров
schedule 23.08.2022

Паук падает при реализации конструктора
Я использую Scrapy для создания очень простого парсера веб-сайтов. Если мой подкласс Spider реализует конструктор, и я запускаю его, scrapy переходит в бесконечный цикл и не запускает паука. Почему это происходит и как я могу это исправить?...
56 просмотров
schedule 20.11.2023

Почему scrapy не сохраняет данные в mongodb?
Мой основной файл: import scrapy from scrapy.exceptions import CloseSpider from scrapy.contrib.spiders import CrawlSpider, Rule from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor from scrapy.http import Request class...
1103 просмотров

Scrapy `ReactorNotRestartable`: один класс для запуска двух (или более) пауков
Я собираю ежедневные данные с помощью Scrapy, используя двухэтапное сканирование. На первом этапе создается список URL-адресов со страницы индекса, а на втором этапе HTML-код для каждого URL-адреса в списке записывается в тему Kafka. Хотя два...
6889 просмотров
schedule 28.12.2023

Scrapy не загружает данные, хотя xpath правильный
Я сканирую данные с http://www.shipspotting.com/gallery/search.php?limit=192&limitstart=2112&sortkey=p.lid&sortorder=desc&page_limit=192&viewtype=2 (только эта страница для проверки моего поискового робота). items.py import scrapy class...
205 просмотров
schedule 09.09.2022

Получить возвращаемое значение обратного вызова в scrapy — фреймворк python
Я ищу способ получать электронные письма со всех URL-адресов с веб-сайтов - в основном, index.php , contact.php и других URL-адресов. Мой сканер просматривает каждую страницу, делает запрос и извлекает электронные письма из исходного кода каждого...
1673 просмотров

Scrapy- Как проверить, опубликована ли новая запись в блоге?
Scrapy — довольно интересный фреймворк. Пара вопросов у меня теперь есть: 1) В более раннем вопросе я выяснил, как извлечь все сообщения в блоге с помощью scrapy, но в решении есть сбой. Видите ли, сообщение в блоге обычно имеет URL-адрес...
256 просмотров

Scrapy: хранить все внешние ссылки и сканировать все внутренние ссылки
Я работаю над парсером, который просматривает все внутренние ссылки с начального URL-адреса и собирает только внешние ссылки с scrapy . Однако моя главная проблема заключается в классификации внешних ссылок и внутренних ссылок. Например, когда я...
6275 просмотров
schedule 23.04.2023

Разница между скребком, краулером и пауком в контексте Scrapy
Пытаюсь прочитать код Scrapy. Слова scaper , crawler и spider сбивают с толку. Например scrapy.core.scraper scrapy.crawler scrapy.spiders Может ли кто-нибудь объяснить значения и различия этих терминов в контексте Scrapy ? Заранее...
2901 просмотров
schedule 31.07.2022

Тестовый паук все еще работает - найдите изменения страницы
Как я могу протестировать паука scrapy на данных онлайн . Я сейчас из этот пост о том, что можно протестировать паука против офлайн данные. Моя цель — проверить, извлекает ли мой паук правильные данные со страницы или страница...
683 просмотров

Scrapy + Splash + ScrapyJS
я использую Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 , и я все еще не могу отображать javascript одним щелчком мыши. Вот пример URL-адреса https://olx.pt/anuncio/loja-nova-com-250m2-garagem-em-box-fechada-para-arrumos-IDyTzAT.html#c49d3d94cf...
5929 просмотров