Итерация по определенному ресурсу в файле RDF с помощью Jena

Я использую Apache Jena для чтения файла RDF, который выглядит так:

<rdf:RDF
    xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#"
    xmlns:dcat="http://www.w3.org/ns/dcat#"
    xmlns:skos="http://www.w3.org/2004/02/skos/core#"
    xmlns:foaf="http://xmlns.com/foaf/0.1/"
    xmlns:owl="http://www.w3.org/2002/07/owl#"
    xmlns:dct="http://purl.org/dc/terms/"
    xmlns:dctypes="http://purl.org/dc/dcmitype/"
    xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">
  <dcat:Catalog rdf:about="http://uri/">
    <dcat:dataset>
      <dcat:Dataset rdf:about="http://url/bop2262008322pdf/">
        <dct:publisher>
          <foaf:Organization>
            <foaf:homepage rdf:resource="http://url"/>
            <dct:title xml:lang="ca">Neme</dct:title>
          </foaf:Organization>
        </dct:publisher>
        <dcat:distribution>
          <dcat:Download>
            <dct:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#date"
            >2012-11-09T16:23:22</dct:modified>
            <dct:format>
              <dct:IMT>
                <rdfs:label>pdf</rdfs:label>
                <rdf:value>application/pdf</rdf:value>
              </dct:IMT>
            </dct:format>
            <dcat:accessURL>http://url/</dcat:accessURL>
          </dcat:Download>
        </dcat:distribution>
        <dcat:keyword xml:lang="ca">Keyword 2</dcat:keyword>
        <dcat:keyword xml:lang="ca">Keyword</dcat:keyword>
        <dct:creator>Creator</dct:creator>
        <dct:modified rdf:datatype="http://www.w3.org/2001/XMLSchema#date"
        >2013-04-16T12:27:14</dct:modified>
        <dct:issued rdf:datatype="http://www.w3.org/2001/XMLSchema#date"
        >2011-03-02T10:28:58</dct:issued>
      </dcat:Dataset>
    </dcat:dataset>
    <dct:license rdf:resource="http://creativecommons.org/licenses/by/3.0/"/>
    <dct:title xml:lang="es">Example</dct:title>
    <dct:title xml:lang="ca">Example</dct:title>
  </dcat:Catalog>
</rdf:RDF>

В основном я хочу получить каждый ресурс dcat:dataset и соответствующие операторы. Но я не могу понять, как перебирать все ресурсы из определенного пространства имен и локального имени (в данном случае dcat:dataset). Я думаю, что можно просто найти ресурсы, содержащие свойства. Однако пространство имен dcat, похоже, не поддерживается Jena. Не могу найти в словаре.


person linsenfips    schedule 05.06.2013    source источник


Ответы (1)


По большей части локальные имена и префиксы имеют значение только в сериализациях. Хотя файл RDF/XML содержит

<dcat:Catalog rdf:about="http:/uri/>
  <dcat:dataset>
    <dcat:Dataset rdf:about="http://url/bop2262008322pdf/">
    …

ваш график RDF на самом деле содержит тройку:

<http:/uri/> <http://www.w3.org/ns/dcat#dataset> <http://url/bop2262008322pdf/>

Это важное различие, потому что сериализованный граф может использовать разные префиксы и давать разные результаты. Например, ваш документ RDF/XML может дополнительно иметь префикс dcatdata:

<rdf:RDF
  xmlns:dcatdata="http://www.w3.org/ns/dcat#data"
  >

после чего ваш документ RDF/XML может выглядеть так:

<dcat:Catalog rdf:about="http:/uri/>
  <dcatdata:set>
    <dcat:Dataset rdf:about="http://url/bop2262008322pdf/">
    …

Таким образом, вы не должны зависеть от конкретного префикса, а скорее получать доступ к ресурсам по их IRI. В этом случае похоже, что вы хотите получить ресурсы с помощью rdf:type dcat:Dataset и утверждений, в которых эти ресурсы являются субъектами. Это достаточно легко сделать с помощью Jena Model и Resource API. Вот пример:

import com.hp.hpl.jena.rdf.model.Model;
import com.hp.hpl.jena.rdf.model.ModelFactory;
import com.hp.hpl.jena.rdf.model.ResIterator;
import com.hp.hpl.jena.rdf.model.Resource;
import com.hp.hpl.jena.rdf.model.StmtIterator;
import com.hp.hpl.jena.vocabulary.RDF;

public class DCATExample {
  public static void main(String[] args) {
    final String dcat = "http://www.w3.org/ns/dcat#";
    Model model = ModelFactory.createDefaultModel();
    model.read( "data.rdf" );
    Resource datasetType = model.getResource( dcat + "Dataset" );
    ResIterator datasets = model.listSubjectsWithProperty( RDF.type, datasetType );
    while ( datasets.hasNext() ) {
      Resource dataset = datasets.next();
      StmtIterator stmts  = dataset.listProperties();
      System.out.println( "* "+dataset );
      while ( stmts.hasNext() ) {
        System.out.println( "** "+stmts.next() );
      }
    }
  }
}

Это производит этот вывод:

* http://url/bop2262008322pdf/
** [http://url/bop2262008322pdf/, http://purl.org/dc/terms/publisher, -7ec508e8:13f14cb9040:-7ffd]
** [http://url/bop2262008322pdf/, http://www.w3.org/ns/dcat#distribution, -7ec508e8:13f14cb9040:-7fff]
** [http://url/bop2262008322pdf/, http://www.w3.org/ns/dcat#keyword, "Keyword 2"@ca]
** [http://url/bop2262008322pdf/, http://www.w3.org/ns/dcat#keyword, "Keyword"@ca]
** [http://url/bop2262008322pdf/, http://purl.org/dc/terms/creator, "Creator"]
** [http://url/bop2262008322pdf/, http://purl.org/dc/terms/modified, "2013-04-16T12:27:14"^^http://www.w3.org/2001/XMLSchema#date]
** [http://url/bop2262008322pdf/, http://purl.org/dc/terms/issued, "2011-03-02T10:28:58"^^http://www.w3.org/2001/XMLSchema#date]
** [http://url/bop2262008322pdf/, http://www.w3.org/1999/02/22-rdf-syntax-ns#type, http://www.w3.org/ns/dcat#Dataset]
person Joshua Taylor    schedule 05.06.2013
comment
Большое спасибо, Джошуа! Работает идеально до сих пор. Я предполагаю, что у меня было неправильное понимание RDF. - person linsenfips; 05.06.2013
comment
@linsenfips Рад слышать, что это работает! Вы изменили RDF перед публикацией? Мне пришлось внести несколько правок, чтобы заставить его читать/писать с Jena. Некоторые из URI были неправильно сформированы, а </rdf:RDF> отсутствовал. - person Joshua Taylor; 05.06.2013
comment
Да я обрезал. Фактический файл содержит 300 записей набора данных. - person linsenfips; 05.06.2013
comment
@lisenfips Если ответ Джошуа решил вашу проблему, не забудьте принять его как ответ — см. meta.stackexchange.com/a/ 5235/133890, если вы не знаете, как это сделать - person RobV; 06.06.2013