Загрузка веб-страницы и всех ее файлов ресурсов в Python

Я хочу иметь возможность загружать страницу и все связанные с ней ресурсы (изображения, таблицы стилей, файлы сценариев и т. Д.) С помощью Python. Я (в некоторой степени) знаком с urllib2 и знаю, как загружать отдельные URL-адреса, но прежде чем я начну взламывать BeautifulSoup + urllib2, я хотел убедиться, что еще не было эквивалента Python для "wget ​​--page-Requisites http://www.google.com ".

В частности, меня интересует сбор статистической информации о том, сколько времени требуется для загрузки всей веб-страницы, включая все ресурсы.

Спасибо, Марк


person Mark Ransom    schedule 09.05.2009    source источник
comment
возможный дубликат stackoverflow.com/questions/419235/   -  person George Stocker    schedule 25.04.2010


Ответы (2)


Websucker? См. http://effbot.org/zone/websucker.htm.

person RichieHindle    schedule 09.05.2009

websucker.py не импортирует ссылки CSS. HTTrack.com - это не Python, это C / C ++, но это хорошая поддерживаемая утилита для загрузки веб-сайтов для просмотра в автономном режиме.

http://www.mail-archive.com/[email protected]/msg13523.html [issue1124] Webchecker не анализирует css "@import url"

Guido> Это, по сути, неподдерживаемый и неподдерживаемый пример кода. Не стесняйтесь отправить патч!

person jamshid    schedule 14.05.2010