как читать содержимое сайта?

Я хочу прочитать содержимое веб-сайта и сохранить его в файле с помощью С# и asp.net. Я знаю, что мы можем прочитать его с помощью httpwebrequest. Но можно ли также прочитать все доступные данные ссылок?

Пример: предположим, я хочу прочитать http://www.msn.com, я могу напрямую указать URL-адрес и могу читать данные домашней страницы, что не проблема. Но здесь эта страница msn.com содержит так много ссылок на домашней странице, что я хочу также прочитать содержимое этих страниц. Является ли это возможным?

Может ли кто-нибудь дать мне старап, чтобы сделать это?

заранее спасибо


person Nagu    schedule 07.10.2009    source источник
comment
Попробуйте сами, это довольно легко, если подумать о проблеме. Если у вас все еще есть трудности, вернитесь, опубликуйте код, который вы используете, и объясните, почему он терпит неудачу, и я уверен, что вы получите некоторую помощь.   -  person Lazarus    schedule 07.10.2009


Ответы (1)


  1. определить очередь URL-адресов

  2. добавить URL главной страницы в очередь

  3. пока очередь не пуста

3.1 currentUrl = Удаление из очереди()

3.2 прочитать текущий URL

3.3 извлечь все URL-адреса из текущей страницы, используя регулярное выражение.

3.4 добавить все URL-адреса в очередь

Вам придется ограничить URL-адреса в очереди какой-то глубиной или каким-то доменом, иначе вы попытаетесь загрузить весь интернет :)

person Alex Reitbort    schedule 07.10.2009
comment
привет, спасибо за ваш быстрый ответ .. можете ли вы дать мне простой пример для извлечения URL-адресов с текущей страницы? - person Nagu; 07.10.2009
comment
Я бы выбрал Beautiful Soup для очистки страницы. - person jldupont; 07.10.2009
comment
3.35 Для каждого найденного URL игнорируйте его, если вы уже посещали его. В противном случае вы можете оказаться в петле. - person Paul Mitchell; 07.10.2009
comment
о, прекрасный суп, я думаю, полностью разработан на питоне. Я хочу разработать тот же инструмент на С#. в любом случае, спасибо за ваши предложения - person Nagu; 07.10.2009