Я пытаюсь получить обработанную разметку для http://www.epicurious.com/recipes/food/reviews/Breaded-Chicken-Cutlets-aka-Grandma-Jodys-Chicken-51114400; теоретически та же разметка, что и в пункте меню «Просмотр исходного кода страницы» в Firefox.
Я использую сценарий Python 2.7 и библиотеку httplib http://docs.python.org/2/library/httplib.html. Я создал объект HTTPConnection, и когда я пытаюсь получить разметку с помощью функций объекта HTTPResponse, я неизбежно получаю ошибку getaddrinfo - 11004. Этот сценарий был выполнен в средах Windows 7 и Ubuntu.
Ни одно из других решений этой ошибки, которые я читал, не отвечает всем требованиям: я не защищен никаким брандмауэром, и у меня нет проблем с пингованием www.google.com. Интересно, не соответствует ли этот веб-сайт какому-то стандарту, о котором я не знаю, поскольку мне не удалось успешно проверить связь с моим целевым веб-сайтом.
Я открыт для альтернативных подходов, дайте мне знать, если есть лучший способ.