Как проще всего получить все статьи о людях из Википедии? Я знаю, что могу скачать дамп всех страниц, но как тогда отфильтровать их и получить только те, которые касаются людей? Мне нужно столько, сколько я могу (желательно более миллиона), поэтому использование какого-либо API, вероятно, не вариант.
Как мне получить все статьи о людях из Википедии?
Ответы (3)
Поскольку статьи о людях обычно содержат шаблон Persondata, вы можете просто искать все статьи, содержащие Persondata. Вы можете найти образец запроса API для этого здесь:
Поддерживает ли API Википедии поиск определенного шаблона? < / а>
С 2014 у вас есть другой вариант: запросить WikiData для всех сущностей, у которых свойство _ 1_ (P31) имеет значение _ 2_ (Q5).
Полный список людей: https://www.wikidata.org/wiki/Special:WhatLinksHere/Q5
Из этого списка отфильтруйте все, что не имеет sex or gender
(P21), чтобы избавиться от страниц типа «ученый»
Таким образом, вам не нужно отслеживать, какие шаблоны используются для людей в каждой языковой версии (есть 285) в Википедии.
Если вы собираетесь выполнить развертывание самостоятельно, вам нужно сосредоточиться на данных «infobox» в дампе XML.
Ссылка: http://code.google.com/p/infobox2rdf/
Или вы также можете проверить http://www.freebase.com или http://dbpedia.org