Результаты, которые показывает Google, основаны на огромном количестве данных, которые, как я полагаю, построены на том, «что искал X, который искал Y, также искал», «что искали другие люди, похожие на X, которые также искали Y» и так далее. Вдобавок, возможно, есть некоторая зависимость от семантической информации, поступающей из Freebase.
Чтобы понять, какие свойства Google показывает в своих информационных окнах, т.е. почему, когда мы ищем Францию, мы получаем карточку с картой, флагом, столицей, населением ... и т. Д. Среди сотен объектов, относящихся к Франции, я создал "Средство извлечения базы знаний", способное анализировать информационное окно Google и предоставлять данные в виде RDF с использованием словаря Френеля. .
Реализованный алгоритм следующий:
- Запросить DBpedia для всех концепций (типов), для которых есть хотя бы один экземпляр, имеющий ссылку на Freebase ID.
- Для каждой из этих концепций случайным образом выберите (n) экземпляров
- Для каждого экземпляра выполните поисковый запрос Google:
- если информационное окно доступно -> удалите информационное окно, чтобы извлечь свойства
- если информационное окно недоступно, проверьте, предлагает ли Google "вы имеете в виду ...?" и если да, перейдите по ссылке и найдите информационное окно
- если информационное окно или исправление недоступны, определите понятие (тип), использованное в поисковом запросе, и проверьте, возвращается ли информационное окно
- если Google предлагает устранить неоднозначность в информационном окне, проанализируйте все ссылки в нем -> лучше найти, какое предложение соответствует текущему типу данных, который мы используем -> проверьте сопоставления Freebase - DBpedia
- Свойства кластера для каждой концепции
Я также запечатлел этот раздел «люди искали», но вы также можете захотеть его немного подправить.
Также обратите внимание, что вы можете проверить селекторы CSS для информационного окна, поскольку Google часто их изменяет (может быть, автоматически сгенерирован). Это сделано в options.json
"knowledgeBox" : "#kno-result",
"knowledgeBox_disambiguate" : ".kp-blk",
"property" : "._Nl",
"property_value" : ".kno-fv",
"label" : ".kno-ecr-pt",
"description" : ".kno-rdesc",
"type" : "._kx",
"images" : ".bicc",
"special_property" : ".kno-sh",
"special_property_value" : "._Zh",
"special_property_value_link" : "a._dt"
person
AhmadAssaf
schedule
21.11.2014