Запуск Scrapy на PyPy

Можно ли запустить Scrapy на PyPy? Я просмотрел документацию и проект github, но единственное место, где упоминается PyPy, это то, что PyPy 2 года назад выполнялись некоторые модульные тесты, см. PyPy поддержка. Существует также сбой Scrapy в PyPy, состоялось долгое обсуждение 3 лет назад без конкретного решения или последующей деятельности.

Насколько я понимаю, основной зависимостью Scrapy Twisted является известно, что она работает на PyPy. Scrapy также использует lxml для анализа HTML, который имеет PyPy-дружественный форк. Другая зависимость, pyOpenSSL, полностью поддерживается (благодаря комментарию @Glyph).

alecxe 24.06.2015 источник

comment

pyOpenSSL полностью поддерживается: travis-ci.org/pyca/pyopenssl/jobs/66236395 - Glyph 25.06.2015

comment

Просто попробуйте. Нет необходимости задавать такой вопрос. - hellow 30.06.2015

comment

@cookiesoft Прежде всего, исходя из проведенного мной исследования, эта проблема не освещена в документации или где-либо еще. Кроме того, потенциально это может оказать положительное влияние на производительность Scrapy. Кроме того, и это самое главное, я надеюсь, что эта тема поможет другим с подобным вопросом или тем, кто попытается найти способ улучшить скорость написанного ими кода веб-скрейпинга. Пожалуйста, наведите указатель мыши на кнопку «против» и проверьте еще раз, соответствует ли она описанию. - alecxe 30.06.2015

Ответы (1)

arrow_upward
5
arrow_downward

Да. :-)

Если говорить более подробно, у меня уже была установлена версия pypy 2.6.0 (с pip). Просто запуск pip install scrapy почти мне помог. Оказалось, что мне нужны некоторые дополнительные библиотеки для lxml. После этого все было хорошо.

После установки я мог запустить руководство по dmoz. Например:

[user@localhost scrapy_proj]# scrapy crawl dmoz
2015-06-30 14:34:45 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapy_proj)
2015-06-30 14:34:45 [scrapy] INFO: Optional features available: ssl, http11
2015-06-30 14:34:45 [scrapy] INFO: Overridden settings: {'BOT_NAME': 'scrapy_proj', 'NEWSPIDER_MODULE': 'scrapy_proj.spiders', 'SPIDER_MODULES': ['scrapy_proj.spiders']}
2015-06-30 14:34:45 [py.warnings] WARNING: :0: UserWarning: You do not have a working installation of the service_identity module: 'No module named service_identity'.  Please install it from <https://pypi.python.org/pypi/service_identity> and make sure all of its dependencies are satisfied.  Without the service_identity module and a recent enough pyOpenSSL to support it, Twisted can perform only rudimentary TLS client hostname verification.  Many valid certificate/hostname mappings may be rejected.

2015-06-30 14:34:45 [scrapy] INFO: Enabled extensions: CoreStats, TelnetConsole, CloseSpider, LogStats, SpiderState
2015-06-30 14:34:45 [scrapy] INFO: Enabled downloader middlewares: HttpAuthMiddleware, DownloadTimeoutMiddleware, UserAgentMiddleware, RetryMiddleware, DefaultHeadersMiddleware, MetaRefreshMiddleware, HttpCompressionMiddleware, RedirectMiddleware, CookiesMiddleware, ChunkedTransferMiddleware, DownloaderStats
2015-06-30 14:34:45 [scrapy] INFO: Enabled spider middlewares: HttpErrorMiddleware, OffsiteMiddleware, RefererMiddleware, UrlLengthMiddleware, DepthMiddleware
2015-06-30 14:34:45 [scrapy] INFO: Enabled item pipelines: 
2015-06-30 14:34:45 [scrapy] INFO: Spider opened
2015-06-30 14:34:45 [scrapy] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2015-06-30 14:34:45 [scrapy] DEBUG: Telnet console listening on 127.0.0.1:6023
2015-06-30 14:34:46 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (referer: None)
2015-06-30 14:34:46 [scrapy] DEBUG: Crawled (200) <GET http://www.dmoz.org/Computers/Programming/Languages/Python/Books/> (referer: None)
2015-06-30 14:34:46 [scrapy] INFO: Closing spider (finished)
2015-06-30 14:34:46 [scrapy] INFO: Dumping Scrapy stats:
{'downloader/request_bytes': 514,
 'downloader/request_count': 2,
 'downloader/request_method_count/GET': 2,
 'downloader/response_bytes': 16286,
 'downloader/response_count': 2,
 'downloader/response_status_count/200': 2,
 'finish_reason': 'finished',
 'finish_time': datetime.datetime(2015, 6, 30, 13, 34, 46, 219002),
 'log_count/DEBUG': 3,
 'log_count/INFO': 7,
 'log_count/WARNING': 1,
 'response_received_count': 2,
 'scheduler/dequeued': 2,
 'scheduler/dequeued/memory': 2,
 'scheduler/enqueued': 2,
 'scheduler/enqueued/memory': 2,
 'start_time': datetime.datetime(2015, 6, 30, 13, 34, 45, 652421)}
2015-06-30 14:34:46 [scrapy] INFO: Spider closed (finished)

И в соответствии с просьбой, вот еще немного информации о версии, которую я использую:

[user@localhost scrapy_proj]# which scrapy
/opt/pypy/bin/scrapy
[user@localhost scrapy_proj]# scrapy version
2015-06-30 15:04:42 [scrapy] INFO: Scrapy 1.0.0 started (bot: scrapy_proj)
2015-06-30 15:04:42 [scrapy] INFO: Optional features available: ssl, http11
2015-06-30 15:04:42 [scrapy] INFO: Overridden settings: {'BOT_NAME': 'scrapy_proj', 'NEWSPIDER_MODULE': 'scrapy_proj.spiders', 'SPIDER_MODULES': ['scrapy_proj.spiders']}
Scrapy 1.0.0

Peter Brittain 30.06.2015

comment

Спасибо за ответ! Не могли бы вы перепроверить, куда указывает скрап? Пожалуйста, запустите which scrapy и опубликуйте результат, который у вас есть. - alecxe; 30.06.2015

comment

Готово - смотрите внизу моего ответа. - Peter Brittain; 30.06.2015

comment

Хорошо! Я смог заставить Scrapy работать и с PyPy. Это работает на данный момент. Попробую запустить на разных пауках и в связке с scrapyjs и selenium и, надеюсь, о результатах сообщу в этой теме. Спасибо, наградим за награду через час. - alecxe; 30.06.2015

Запуск Scrapy на PyPy

Ответы (1)

Похожие вопросы