Как извлечь и импортировать страницы Википедии?

Я создаю поисковую систему, и чтобы хорошо ее протестировать, ей нужно больше статей. Лучший источник для них — Википедия.

Я искал некоторые дампы, но некоторые из них представляют собой XML (которые у меня возникли проблемы с импортом), некоторые из них не содержат содержимого.

Итак, как получить дамп, желательно в виде MySQL. Это должен быть не английский язык.

Есть идеи?


person flakerimi    schedule 22.01.2011    source источник
comment
Можете ли вы привести небольшой пример формата контента?   -  person Eray    schedule 23.01.2011
comment
если бы у вас были дампы sql из википедии, у вас был бы клон википедии, вам понадобилось бы программное обеспечение вики, чтобы получить все, что начинает выглядеть как статьи. Доступны API, и я настоятельно рекомендую импортировать их либо из API, либо из множества доступных вариантов структурированных данных.   -  person mirzu    schedule 23.01.2011
comment
Эээ... вы уверены, что у вас есть ресурсы, чтобы разместить копию Википедии? И даже если вы это сделаете, как вы планируете обновлять его?   -  person thkala    schedule 23.01.2011
comment
@Eray не имеет значения, все, что мне нужно, это импортировать в mysql некоторые данные, чтобы я мог их искать.   -  person flakerimi    schedule 23.01.2011
comment
@полковник Осколки Получить жизнь, никто не просил об этом. Я не просил делать эту работу для меня, но даже если я это сделаю, ты можешь просто проигнорировать это, так что тебе не нужно рассказывать всем, кто ты такой. Что, если бы у меня был такой же опыт, я сделал небольшой скрипт, который это делает, и знаете что, я поделился им в своем блоге. Я скажу людям об этом и помогу им.   -  person flakerimi    schedule 23.01.2011
comment
@Mirzu & @thkala en.wikipedia.org/wiki/ Как я уже сказал , я хочу некоторые статьи, даже все, так как их не так много на моем языке, и импортировать их в mysql. Я не создаю википедию, я просто хочу, чтобы они для целей поиска видели, как отображаются результаты.   -  person flakerimi    schedule 23.01.2011


Ответы (1)


Вот страница, объясняющая, как импортировать Википедию в Solr.

Вот шаг пошаговое объяснение загрузки дампа Википедии в Mysql для запуска локального клона.

person bmargulies    schedule 22.01.2011
comment
+1 за конструктивный ответ. ОП просто нужны некоторые тестовые данные, что вполне допустимо. - person Pekka; 23.01.2011
comment
Так случилось, что я был там, делал это и знаю, что без рецепта это не так просто. - person bmargulies; 23.01.2011
comment
По крайней мере, есть тропа, по которой можно идти :) - person flakerimi; 23.01.2011