Как мне получить все статьи о людях из Википедии?

Как проще всего получить все статьи о людях из Википедии? Я знаю, что могу скачать дамп всех страниц, но как тогда отфильтровать их и получить только те, которые касаются людей? Мне нужно столько, сколько я могу (желательно более миллиона), поэтому использование какого-либо API, вероятно, не вариант.


person Johnny    schedule 25.10.2010    source источник
comment
Я действительно не знаю, о чем вы просите, кроме более миллиона статей в Википедии о людях (что не подходит для SO).   -  person David Thornley    schedule 25.10.2010
comment
Что именно ты имеешь ввиду? Вы спрашиваете совета, как реализовать веб-паука?   -  person Adrian Grigore    schedule 25.10.2010
comment
Нет, я не думаю, что в данном случае использование пауков уместно. Есть возможность скачать дамп Википедии. Вопрос в том, как отфильтровать XML-файл дампа и получить только страницы о людях.   -  person Johnny    schedule 26.10.2010


Ответы (3)


Поскольку статьи о людях обычно содержат шаблон Persondata, вы можете просто искать все статьи, содержащие Persondata. Вы можете найти образец запроса API для этого здесь:

Поддерживает ли API Википедии поиск определенного шаблона? < / а>

person lambshaanxy    schedule 07.11.2010

С 2014 у вас есть другой вариант: запросить WikiData для всех сущностей, у которых свойство _ 1_ (P31) имеет значение _ 2_ (Q5).

Полный список людей: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5

Из этого списка отфильтруйте все, что не имеет sex or gender (P21), чтобы избавиться от страниц типа «ученый»

Таким образом, вам не нужно отслеживать, какие шаблоны используются для людей в каждой языковой версии (есть 285) в Википедии.

person leo    schedule 13.04.2014

Если вы собираетесь выполнить развертывание самостоятельно, вам нужно сосредоточиться на данных «infobox» в дампе XML.

Ссылка: http://code.google.com/p/infobox2rdf/

Или вы также можете проверить http://www.freebase.com или http://dbpedia.org

person tszming    schedule 26.10.2010