Как просканировать всю Википедию?

Я пробовал приложение WebSphinx.

Я понимаю, что если я поставлю wikipedia.org в качестве начального URL-адреса, он не будет сканироваться дальше.

Следовательно, как на самом деле просканировать всю Википедию? Может ли кто-нибудь дать мне некоторые рекомендации? Нужно ли мне специально идти и находить эти URL-адреса и указывать несколько начальных URL-адресов?

У кого-нибудь есть предложения хорошего веб-сайта с учебником по использованию API WebSphinx?

Mr CooL 22.02.2010 источник

Ответы (6)

arrow_upward
47
arrow_downward

Если ваша цель — просканировать всю Википедию, вы можете просмотреть доступные дампы баз данных. См. http://download.wikimedia.org/.

Andrew 22.02.2010

comment

+1. Сканирование Википедии через HTTP является грубым и создает дополнительную нагрузку на серверы. - Greg Hewgill; 22.02.2010

comment

@GregHewgill, это довольно предполагаемое утверждение. Это действительно зависит от того, насколько быстро вы сканируете сайт, соблюдаете ли вы директивы robots.txt и что вы считаете большой дополнительной нагрузкой. Согласно wikipedia Friendly, низкоскоростные боты приветствуются при просмотре страниц статей, но не динамически генерируемых страниц. - en.wikipedia.org/robots.txt Сканеры обычно не предназначены для анализа википедии. определенные XML-документы, заполненные вики-разметкой, поэтому создание отдельной системы для анализа устаревших XML-дампов только для wikipedia.com кажется глупым. - Marcus Pope; 22.06.2012

comment

Я не понимаю: если дружественное сканирование разрешено, почему они запрещают такое количество сканеров в robots.txt? - TechNyquist; 15.05.2017

arrow_upward
4
arrow_downward

Я не уверен, но, возможно, UserAgent WEbSphinx заблокирован файлом robots.txt из Википедии.

http://en.wikipedia.org/robots.txt

Dr.Optix 22.02.2010

arrow_upward
2
arrow_downward

Я думаю, что вы не могли выбрать необходимую конфигурацию для этого. Переключитесь на расширенный, просканируйте поддомен, не ограничивайте размер страницы и время.

Однако WebSphinx, вероятно, не может сканировать всю Википедию, он замедляется при больших объемах данных и в конечном итоге останавливается, когда используется около 200 МБ памяти. Я рекомендую вам Nutch, Heritrix и Crawler4j.

İsmet Alkan 21.04.2012

arrow_upward
0
arrow_downward

Вероятно, вам нужно начать со случайной статьи, а затем просканировать все статьи, до которых вы можете добраться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете начать поиск с терминов, которые, по вашему мнению, приведут к наибольшему количеству статей, или начать с избранной статьи на первой странице.

Еще вопрос: Почему WebSphinx не прополз дальше? Блокирует ли википедия ботов, которые идентифицируют себя как «WebSphinx»?

FrustratedWithFormsDesigner 22.02.2010

arrow_upward
0
arrow_downward

Помимо использования дампа базы данных Википедии, упомянутого выше, вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.

http://www.mediawiki.org/wiki/API:Query_- Списки#random.2F_rn

Gabe 23.02.2010

arrow_upward
-1
arrow_downward

Взгляните на dbpedia, структурированную версию Википедии.

Yishu Fang 19.08.2014

Как просканировать всю Википедию?

Ответы (6)

Похожие вопросы