Я написал поисковый робот на Python 2.6 с использованием Bing API, который ищет определенные документы, а затем загружает их для последующей классификации. Я использовал строковые методы и urllib.urlretrieve() для загрузки результатов, URL-адрес которых заканчивается на .pdf, .ps и т. д., но у меня возникают проблемы, когда документ «скрыт» за URL-адресом, например:
http://www.oecd.org/officialdocuments/displaydocument/?cote=STD/CSTAT/WPNA(2008)25&docLanguage=En
Итак, два вопроса. Есть ли вообще способ узнать, есть ли у URL-адреса файл pdf/doc и т. д., на который он ссылается, если он не делает этого явно (например, www.domain.com/file.pdf)? Есть ли способ заставить Python поймать этот файл?
Редактировать: спасибо за ответы, некоторые из которых предлагают загрузить файл, чтобы убедиться, что он имеет правильный тип. Единственная проблема в том, что... я не знаю, как это сделать (см. вопрос № 2 выше). urlretrieve(<above url>) дает только html-файл с href, содержащим тот же URL-адрес.