Учитывая список названий компаний, как получить названия компаний, URL-адрес веб-сайта, год основания, количество сотрудников и т. д.

У меня есть список названий компаний, таких как Microsoft Corp, Kimberly Clark Corporation и т. д., и для каждой компании я хотел бы получить такие поля, как:

  1. Логотип компании
  2. Географический идентификатор для карт Google
  3. Ссылка на сайт
  4. Год Основанная
  5. Фондовая биржа и тикер фондовой биржи
  6. Способ получить цены акций за последние несколько дней
  7. О себе/реферат из википедии
  8. Список дочерних и материнских компаний. Например, для Boeing это будут Jeppessen и Availl, Inc и т. д.

Я изучил Sparql и Dbpedia. Любое предложение о том, как придумать запрос sparql для получения части этой информации? (Мне не нужно извлекать все поля, достаточно пары полей, чтобы начать.)

Спасибо!


person perryzheng    schedule 27.08.2012    source источник
comment
Я собираюсь решить аналогичную проблему и хотел бы знать, как вы справились.   -  person Nathan Keller    schedule 25.04.2013


Ответы (2)


Вы можете начать использовать такой запрос:

select * where {
  values ?company { dbpedia:Microsoft
                    <http://dbpedia.org/resource/Apple_Inc.>
                    dbpedia:Kimberly-Clark
                  } 
  OPTIONAL { { ?company dbpprop:logo ?logo  FILTER(isIRI(?logo)) }
             UNION 
             { ?company foaf:depiction ?logo FILTER(isIRI(?logo)) } }
  OPTIONAL { ?company dbpedia-owl:abstract ?abstract 
             FILTER(langMatches(lang(?abstract),"EN")) }
  OPTIONAL { ?company geo:lat ?latitude ;
                      geo:long ?longitude }
  OPTIONAL { ?company dbpedia-owl:foundingDate ?foundingDate }
  OPTIONAL { ?company dbpedia-owl:wikiPageExternalLink ?externalLink }
  OPTIONAL { ?company dbpprop:symbol ?stockSymbol }
  OPTIONAL { ?company dbpedia-owl:subsidiary ?subsidiaryPage }
}

Результаты SPARQL

Я основывался на свойствах, которые я видел на страницах DBpedia для Microsoft, Kimberly-Clark и Apple, Inc.. Данные не очень чистые, поэтому я добавил в запрос несколько фильтров:

  • Не все из этих списков дочерних компаний, и свойство дочерних компаний для Microsoft не относится к дочерним компаниям, а страница, которая предположительно перечисляет некоторые дочерние компании).

  • У некоторых компаний неверная информация о логотипах (отсюда и FILTER с isIRI). Например, dbpprop:logo Apple — это целое число 150. Я думаю, что это происходит из строки информационного окна Википедии | logo = [[File:{{#property:p154}}|150px]], где 150 вытаскивается, а не более значимое значение. Фильтрация по isIRI немного помогает.

  • Некоторые компании имеют несколько дат основания. Я не уверен, как вы могли бы решить, какой из нескольких использовать.

  • Хотя страница компании обычно указана как внешняя ссылка, не все внешние ссылки, связанные со страницей, являются страницей компании. Я не уверен, как вы могли выбрать один в качестве страницы компании.

Все это говорит о том, что вы можете получить много информации из DBpedia.

person Joshua Taylor    schedule 27.05.2013
comment
Я выполняю ту же задачу, хотя результаты SPARQL здесь огромны. Почему это? Все, что мне нужно, это один набор результатов с логотипом и названием компании. Это возможно? - person gray; 31.10.2013
comment
@gray Обратите внимание, что есть похожий комментарий к вопросу уже. - person Joshua Taylor; 31.10.2013

вы можете начать со следующего запроса sparql. Он извлекает все триплеты для субъекта с именем = Apple Inc.».

select distinct ?subject ?predicate ?object where { 
  ?subject ?predicate ?object .
  ?subject <http://xmlns.com/foaf/0.1/name> "Apple Inc."@en .
}

результаты SPARQL

subject     predicate   object
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://www.w3.org/2002/07/owl#Thing
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/ontology/Company
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://www.opengis.net/gml/_Feature
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/ontology/Organisation
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/ontology/Agent
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://schema.org/Organization
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/ComputerCompaniesOfTheUnitedStates
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/SoftwareCompaniesOfTheUnitedStates
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/RetailCompaniesOfTheUnitedStates
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/CompaniesEstablishedIn1976
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/ComputerHardwareCompanies
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://umbel.org/umbel/rc/Organization
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/Company108058098
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/HomeComputerHardwareCompanies
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/CompaniesBasedInCupertino,California
http://dbpedia.org/resource/Apple_Inc.  http://www.w3.org/1999/02/22-rdf-syntax-ns#type     http://dbpedia.org/class/yago/MobilePhoneManuFACturers
person Pierre    schedule 16.09.2012