Выбор элементов с определенными атрибутами пространства имен

Моя проблема конкретно связана с некоторыми проблемами, которые у меня возникают при анализе файла Inkscape (XML), но это решение должно быть применимо к любому XML-документу, поэтому я считаю, что это актуально для Stackoverflow.

Я пытаюсь использовать селекторы Nokogiri CSS, чтобы получить все элементы <g>, имеющие атрибут inkscape:groupmode="layer". Но двоеточие вызывает ошибку:

Nokogiri::CSS::SyntaxError: unexpected ':' after 'inkscape'

Мой XML-документ выглядит так:

<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!-- Created with Inkscape (http://www.inkscape.org/) -->
<svg xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:cc="http://creativecommons.org/ns#" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:svg="http://www.w3.org/2000/svg" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink" xmlns:sodipodi="http://sodipodi.sourceforge.net/DTD/sodipodi-0.dtd" xmlns:inkscape="http://www.inkscape.org/namespaces/inkscape" width="744.09448819" height="1052.3622047" id="svg3720" version="1.1" inkscape:version="0.48.1 r9760" sodipodi:docname="test.svg">
  <defs id="defs3722">
    <inkscape:perspective sodipodi:type="inkscape:persp3d" inkscape:vp_x="0 : 526.18109 : 1" inkscape:vp_y="0 : 1000 : 0" inkscape:vp_z="744.09448 : 526.18109 : 1" inkscape:persp3d-origin="372.04724 : 350.78739 : 1" id="perspective3728"/>
  </defs>
  <sodipodi:namedview id="base" pagecolor="#ffffff" bordercolor="#666666" borderopacity="1.0" inkscape:pageopacity="0.0" inkscape:pageshadow="2" inkscape:zoom="0.35" inkscape:cx="375" inkscape:cy="634.28571" inkscape:document-units="px" inkscape:current-layer="g2818" showgrid="false" inkscape:window-width="550" inkscape:window-height="483" inkscape:window-x="66" inkscape:window-y="471" inkscape:window-maximized="0"/>
  <metadata id="metadata3725">
    <rdf:RDF>
      <cc:Work rdf:about="">
        <dc:format>image/svg+xml</dc:format>
        <dc:type rdf:resource="http://purl.org/dc/dcmitype/StillImage"/>
        <dc:title/>
      </cc:Work>
    </rdf:RDF>
  </metadata>
  <g inkscape:label="Layer 1" inkscape:groupmode="layer" id="layer1">
    <rect style="fill:#d2e149;fill-opacity:1;stroke:none" id="rect2812" width="211.42857" height="128.57143" x="168.57143" y="215.21933" ry="64.285713"/>
  </g>
  <g inkscape:label="Layer 1 copy copy" inkscape:groupmode="layer" id="g2818">
    <rect style="fill:#d2e149;fill-opacity:1;stroke:none" id="rect2820" width="211.42857" height="128.57143" x="145.71428" y="615.2193" ry="64.285713"/>
  </g>
</svg>

Мой селектор выглядит так:

nokogiri_document.css('[inkscape:groupmode="layer"]').to_html

Я также попытался заменить двоеточие на трубу

Как написать селектор CSS для работы с атрибутом inkscape:groupmode... или, если уж на то пошло, с любым атрибутом foo:bar?


person SooDesuNe    schedule 04.11.2011    source источник


Ответы (2)


Используйте XPath, указав пространство имен для элементов g. Поскольку ваш корневой элемент объявляет xmlns:svg таким же, как новое пространство имен по умолчанию (xmlns), вы можете использовать svg в качестве префикса:

require 'nokogiri'
doc = Nokogiri.XML(IO.read('contents.xml'))
layers = doc.xpath('//svg:g[@inkscape:groupmode="layer"]')

p layers.map{ |layer| layer['id'] }
#=> ["layer1", "g2818"]

В расшифрованном виде приведенный выше XPath говорит:

  • // — на любом уровне документа
  • svg:g — … найти g элементов с пространством имен, совпадающим с пространством имен svg
  • […] – …но только при соблюдении условий
  • @inkscape:groupmode — …есть атрибут (@) с именем groupmode и пространством имен, соответствующим inkscape
  • ="layer" — а внутренним значением этого атрибута является текст layer.

В качестве альтернативы, если вы просто пытаетесь прочитать этот файл (а не манипулировать им и не пересохранять его), вы можете использовать грубый, но упрощающий хак удаления всех пространств имен. В этом случае ваш исходный код работает просто:

doc.remove_namespaces!
p doc.css('g[groupmode="layer"]').map{ |g| g['id'] }
#=> ["layer1", "g2818"]
person Phrogz    schedule 04.11.2011

Я предлагаю вам попробовать использовать XPath. Посмотрите на этот фрагмент:

require 'nokogiri'
doc = Nokogiri::XML(File.read('your_file.xml'))
doc.xpath('//xmlns:g[starts-with(@inkscape:label, "Layer")]').size  # => 2

Обратите внимание на xmlns в выражении XPath. Поскольку запрос XPath ищет элементы, которые не находятся ни в одном пространстве имен, вам нужно сообщить обработчику XPath, что вы ищете элементы в заданном пространстве имен. Вы можете сделать это несколькими способами. Я использую самый простой случай - использование пространства имен по умолчанию в запросе XPath. Также вы можете определить собственное пространство имен во втором аргументе вызова метода XPath и использовать его в запросе.

person WarHog    schedule 04.11.2011
comment
Да, вы абсолютно правы, я сделал грубую ошибку. Я исправлю свой фрагмент. Спасибо - person WarHog; 04.11.2011
comment
Ой, позор мне :) Я сделал пример для атрибута inkscape:label вместо inkscape:groupmode, как хотел автор. Но я думаю, что оставьте мой фрагмент как есть, потому что он может быть полезен в качестве примера немного более расширенных возможностей поиска по атрибутам. В любом случае большое спасибо за столь полезные комментарии - person WarHog; 05.11.2011