Вопросы по теме 'scrapy-spider'
scrapy не просканировал всю ссылку
Я хочу извлечь данные из http://community.sellfree.co.kr/ . Scrapy работает, однако, похоже, он очищает только start_urls и не сканирует никакие ссылки.
Я бы хотел, чтобы паук обошел весь сайт.
Вот мой код:
from scrapy.spider import...
1321 просмотров
schedule
24.02.2022
Какая правильная форма работы с куками в scrapy
Я очень новичок, я работаю со scrapy в сети, которая использует файлы cookie. Это проблема для меня, потому что я могу получить данные из сети без файлов cookie, но получить данные из сети с файлами cookie для меня сложно. У меня есть эта структура...
1106 просмотров
schedule
30.05.2022
Скрапинг с помощью scrapy
Я пытаюсь копнуть немного глубже с помощью scrapy, но могу получить только название того, что я очищаю, а не какие-либо детали. Вот код, который у меня есть до сих пор:
from scrapy.spider import BaseSpider
from scrapy.selector import...
523 просмотров
schedule
30.12.2022
парсинг нескольких страниц с помощью scrapy
Я пытаюсь использовать scrapy для очистки веб-сайта с несколькими страницами информации.
мой код:
from scrapy.spider import BaseSpider
from scrapy.selector import Selector
from tcgplayer1.items import Tcgplayer1Item
class...
3702 просмотров
schedule
29.04.2024
python Scrapy CrawlSpider: правило не применяется после входа в систему, просматривается только первая страница
Я программист C/C++ с ограниченным опытом работы с Python в создании графиков и обработке текста. В настоящее время я работаю над проектом анализа личных данных и использую Scrapy для сканирования всех тем и информации о пользователях на форуме.
Я...
1000 просмотров
schedule
29.05.2022
расчет охвата скрап-веб-паука
Я пишу веб-пауков для удаления некоторых продуктов с веб-сайтов, используя структуру scrapy в python. Мне было интересно, как лучше всего рассчитать покрытие и недостающие элементы написанных пауков.
То, что я использую прямо сейчас, — это...
145 просмотров
schedule
31.03.2023
Scrapy: парсинг списка ссылок
Этот вопрос является своего рода продолжением этого вопроса, который я задавал ранее.
Я пытаюсь очистить веб-сайт, содержащий ссылки на первой странице. Что-то похожее на this .
Теперь, поскольку я хочу очистить детали элементов,...
3733 просмотров
schedule
15.04.2022
При очистке с получением метода экземпляра ошибки нет атрибута '__getitem__'
Я не мог понять, что получаю эту ошибку -> метод экземпляра не имеет атрибута getitem. Я просто пытаюсь очистить этот сайт, чтобы извлечь названия отделов.
import scrapy
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.selector...
256 просмотров
schedule
28.04.2024
Передать аргумент пауку scrapy в скрипте Python
Я могу запустить сканирование в скрипте Python со следующим рецептом из вики:
from twisted.internet import reactor
from scrapy.crawler import Crawler
from scrapy import log, signals
from testspiders.spiders.followall import FollowAllSpider
from...
6235 просмотров
schedule
25.08.2023
Ошибка Scrapy python - отсутствует схема в URL-адресе запроса
Я пытаюсь получить файл с FTP-сервера, защищенного паролем. Это код, который я использую:
import scrapy
from scrapy.contrib.spiders import XMLFeedSpider
from scrapy.http import Request
from crawler.items import CrawlerItem
class...
2127 просмотров
schedule
23.08.2022
Паук падает при реализации конструктора
Я использую Scrapy для создания очень простого парсера веб-сайтов.
Если мой подкласс Spider реализует конструктор, и я запускаю его, scrapy переходит в бесконечный цикл и не запускает паука.
Почему это происходит и как я могу это исправить?...
56 просмотров
schedule
20.11.2023
Почему scrapy не сохраняет данные в mongodb?
Мой основной файл:
import scrapy
from scrapy.exceptions import CloseSpider
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
from scrapy.http import Request
class...
1103 просмотров
schedule
09.09.2023
Scrapy `ReactorNotRestartable`: один класс для запуска двух (или более) пауков
Я собираю ежедневные данные с помощью Scrapy, используя двухэтапное сканирование. На первом этапе создается список URL-адресов со страницы индекса, а на втором этапе HTML-код для каждого URL-адреса в списке записывается в тему Kafka.
Хотя два...
6889 просмотров
schedule
28.12.2023
Scrapy не загружает данные, хотя xpath правильный
Я сканирую данные с http://www.shipspotting.com/gallery/search.php?limit=192&limitstart=2112&sortkey=p.lid&sortorder=desc&page_limit=192&viewtype=2 (только эта страница для проверки моего поискового робота).
items.py
import scrapy
class...
205 просмотров
schedule
09.09.2022
Получить возвращаемое значение обратного вызова в scrapy — фреймворк python
Я ищу способ получать электронные письма со всех URL-адресов с веб-сайтов - в основном, index.php , contact.php и других URL-адресов. Мой сканер просматривает каждую страницу, делает запрос и извлекает электронные письма из исходного кода каждого...
1673 просмотров
schedule
18.09.2023
Scrapy- Как проверить, опубликована ли новая запись в блоге?
Scrapy — довольно интересный фреймворк. Пара вопросов у меня теперь есть:
1) В более раннем вопросе я выяснил, как извлечь все сообщения в блоге с помощью scrapy, но в решении есть сбой. Видите ли, сообщение в блоге обычно имеет URL-адрес...
256 просмотров
schedule
22.10.2023
Scrapy: хранить все внешние ссылки и сканировать все внутренние ссылки
Я работаю над парсером, который просматривает все внутренние ссылки с начального URL-адреса и собирает только внешние ссылки с scrapy . Однако моя главная проблема заключается в классификации внешних ссылок и внутренних ссылок. Например, когда я...
6275 просмотров
schedule
23.04.2023
Разница между скребком, краулером и пауком в контексте Scrapy
Пытаюсь прочитать код Scrapy. Слова scaper , crawler и spider сбивают с толку. Например
scrapy.core.scraper
scrapy.crawler
scrapy.spiders
Может ли кто-нибудь объяснить значения и различия этих терминов в контексте Scrapy ? Заранее...
2901 просмотров
schedule
31.07.2022
Тестовый паук все еще работает - найдите изменения страницы
Как я могу протестировать паука scrapy на данных онлайн .
Я сейчас из этот пост о том, что можно протестировать паука против офлайн данные.
Моя цель — проверить, извлекает ли мой паук правильные данные со страницы или страница...
683 просмотров
schedule
05.02.2022
Scrapy + Splash + ScrapyJS
я использую Splash 2.0.2 + Scrapy 1.0.5 + Scrapyjs 0.1.1 , и я все еще не могу отображать javascript одним щелчком мыши. Вот пример URL-адреса https://olx.pt/anuncio/loja-nova-com-250m2-garagem-em-box-fechada-para-arrumos-IDyTzAT.html#c49d3d94cf...
5929 просмотров
schedule
14.09.2022