как читать содержимое сайта?

Я хочу прочитать содержимое веб-сайта и сохранить его в файле с помощью С# и asp.net. Я знаю, что мы можем прочитать его с помощью httpwebrequest. Но можно ли также прочитать все доступные данные ссылок?

Пример: предположим, я хочу прочитать http://www.msn.com, я могу напрямую указать URL-адрес и могу читать данные домашней страницы, что не проблема. Но здесь эта страница msn.com содержит так много ссылок на домашней странице, что я хочу также прочитать содержимое этих страниц. Является ли это возможным?

Может ли кто-нибудь дать мне старап, чтобы сделать это?

заранее спасибо

c# httpwebrequest

Nagu 07.10.2009 источник

comment

Попробуйте сами, это довольно легко, если подумать о проблеме. Если у вас все еще есть трудности, вернитесь, опубликуйте код, который вы используете, и объясните, почему он терпит неудачу, и я уверен, что вы получите некоторую помощь. - Lazarus 07.10.2009

Ответы (1)

arrow_upward
1
arrow_downward

определить очередь URL-адресов
добавить URL главной страницы в очередь
пока очередь не пуста

3.1 currentUrl = Удаление из очереди()

3.2 прочитать текущий URL

3.3 извлечь все URL-адреса из текущей страницы, используя регулярное выражение.

3.4 добавить все URL-адреса в очередь

Вам придется ограничить URL-адреса в очереди какой-то глубиной или каким-то доменом, иначе вы попытаетесь загрузить весь интернет :)

Alex Reitbort 07.10.2009

comment

привет, спасибо за ваш быстрый ответ .. можете ли вы дать мне простой пример для извлечения URL-адресов с текущей страницы? - Nagu; 07.10.2009

comment

Я бы выбрал Beautiful Soup для очистки страницы. - jldupont; 07.10.2009

comment

3.35 Для каждого найденного URL игнорируйте его, если вы уже посещали его. В противном случае вы можете оказаться в петле. - Paul Mitchell; 07.10.2009

comment

о, прекрасный суп, я думаю, полностью разработан на питоне. Я хочу разработать тот же инструмент на С#. в любом случае, спасибо за ваши предложения - Nagu; 07.10.2009

как читать содержимое сайта?

Ответы (1)

Похожие вопросы