Как просканировать всю Википедию?

Я пробовал приложение WebSphinx.

Я понимаю, что если я поставлю wikipedia.org в качестве начального URL-адреса, он не будет сканироваться дальше.

Следовательно, как на самом деле просканировать всю Википедию? Может ли кто-нибудь дать мне некоторые рекомендации? Нужно ли мне специально идти и находить эти URL-адреса и указывать несколько начальных URL-адресов?

У кого-нибудь есть предложения хорошего веб-сайта с учебником по использованию API WebSphinx?


person Mr CooL    schedule 22.02.2010    source источник


Ответы (6)


Если ваша цель — просканировать всю Википедию, вы можете просмотреть доступные дампы баз данных. См. http://download.wikimedia.org/.

person Andrew    schedule 22.02.2010
comment
+1. Сканирование Википедии через HTTP является грубым и создает дополнительную нагрузку на серверы. - person Greg Hewgill; 22.02.2010
comment
@GregHewgill, это довольно предполагаемое утверждение. Это действительно зависит от того, насколько быстро вы сканируете сайт, соблюдаете ли вы директивы robots.txt и что вы считаете большой дополнительной нагрузкой. Согласно wikipedia Friendly, низкоскоростные боты приветствуются при просмотре страниц статей, но не динамически генерируемых страниц. - en.wikipedia.org/robots.txt Сканеры обычно не предназначены для анализа википедии. определенные XML-документы, заполненные вики-разметкой, поэтому создание отдельной системы для анализа устаревших XML-дампов только для wikipedia.com кажется глупым. - person Marcus Pope; 22.06.2012
comment
Я не понимаю: если дружественное сканирование разрешено, почему они запрещают такое количество сканеров в robots.txt? - person TechNyquist; 15.05.2017

Я не уверен, но, возможно, UserAgent WEbSphinx заблокирован файлом robots.txt из Википедии.

http://en.wikipedia.org/robots.txt

person Dr.Optix    schedule 22.02.2010

Я думаю, что вы не могли выбрать необходимую конфигурацию для этого. Переключитесь на расширенный, просканируйте поддомен, не ограничивайте размер страницы и время.

Однако WebSphinx, вероятно, не может сканировать всю Википедию, он замедляется при больших объемах данных и в конечном итоге останавливается, когда используется около 200 МБ памяти. Я рекомендую вам Nutch, Heritrix и Crawler4j.

person İsmet Alkan    schedule 21.04.2012

Вероятно, вам нужно начать со случайной статьи, а затем просканировать все статьи, до которых вы можете добраться из этой начальной. Когда это дерево поиска будет исчерпано, начните с новой случайной статьи. Вы можете начать поиск с терминов, которые, по вашему мнению, приведут к наибольшему количеству статей, или начать с избранной статьи на первой странице.

Еще вопрос: Почему WebSphinx не прополз дальше? Блокирует ли википедия ботов, которые идентифицируют себя как «WebSphinx»?

person FrustratedWithFormsDesigner    schedule 22.02.2010

Помимо использования дампа базы данных Википедии, упомянутого выше, вы можете использовать API Википедии для выполнения запросов, таких как получение 100 случайных статей.

http://www.mediawiki.org/wiki/API:Query_- Списки#random.2F_rn

person Gabe    schedule 23.02.2010

Взгляните на dbpedia, структурированную версию Википедии.

person Yishu Fang    schedule 19.08.2014