Поиск статей по межъязыковой тематике из Wiki Dump

Найти полный список статей Википедии на английском языке с соответствующими статьями на языках, отличных от английского, таких как французский и испанский, является проблемой, на которую они не могут ответить. Вы можете найти несколько похожих вопросов, но большинство из них относятся к предыдущей структуре Википедии, а другие остались без правильного ответа.

Мы можем скачать дамп статей Википедии на английском и испанском языках отсюда: English Wiki и Испанская вики.

В enwiki и eswiki есть некоторые данные с названиями langlinks, также называемые дополнительными ссылками, с целью поиска статей, связанных с разными языками. Но непонятно, как их использовать для поиска статей, связанных между собой (испанские статьи связаны с каждой англоязычной). Схемы langlinks похожи на:

CREATE TABLE `langlinks` (
  `ll_from` int(10) unsigned NOT NULL DEFAULT '0',
  `ll_lang` varbinary(20) NOT NULL DEFAULT '',
  `ll_title` varbinary(255) NOT NULL DEFAULT '',
   UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
   KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;

Связана ли запись со специальным полем «ll_from» на английском языке с записью с аналогичным полем «ll_from» на испанском языке? если да, то почему я не могу найти записи с аналогичным полем ll_from в этих двух файлах langlinks?

Опять же, как использовать эти файлы langlinks для поиска статей, связанных с разными языками? Я не хочу использовать другие инструменты, такие как инструментарий Викиданных.


person SahelSoft    schedule 11.02.2018    source источник


Ответы (1)


Эта страница полезна: Руководство: таблица langlinks

Поля ll_from page_id ссылающейся страницы.

ll_lang Код языка цели в стандарте ISO 639-1.

ll_title Заголовок цели, включая пространство имен (стиль FULLPAGENAMEE).

Как показано на схеме, комбинация ll_lang и ll_title уникальна.

person SahelSoft    schedule 18.02.2018