Загрузка веб-страницы и всех ее файлов ресурсов в Python

Я хочу иметь возможность загружать страницу и все связанные с ней ресурсы (изображения, таблицы стилей, файлы сценариев и т. Д.) С помощью Python. Я (в некоторой степени) знаком с urllib2 и знаю, как загружать отдельные URL-адреса, но прежде чем я начну взламывать BeautifulSoup + urllib2, я хотел убедиться, что еще не было эквивалента Python для "wget --page-Requisites http://www.google.com ".

В частности, меня интересует сбор статистической информации о том, сколько времени требуется для загрузки всей веб-страницы, включая все ресурсы.

Спасибо, Марк

python wget urllib2

Mark Ransom 09.05.2009 источник

comment

возможный дубликат stackoverflow.com/questions/419235/ - George Stocker 25.04.2010

Ответы (2)

arrow_upward
3
arrow_downward

Websucker? См. http://effbot.org/zone/websucker.htm.

RichieHindle 09.05.2009

arrow_upward
2
arrow_downward

websucker.py не импортирует ссылки CSS. HTTrack.com - это не Python, это C / C ++, но это хорошая поддерживаемая утилита для загрузки веб-сайтов для просмотра в автономном режиме.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] Webchecker не анализирует css "@import url"

Guido> Это, по сути, неподдерживаемый и неподдерживаемый пример кода. Не стесняйтесь отправить патч!

jamshid 14.05.2010

Загрузка веб-страницы и всех ее файлов ресурсов в Python

Ответы (2)

Похожие вопросы