Я использую XPath для выбора раздела на HTML-странице. Однако когда я использую XPath для извлечения узла, он правильно выбирает только текст, окружающий теги HTML, а не сами теги HTML.
Пример HTML
<body>
<div>
At first glance you may ask, “what <i>exactly</i>
do you mean?” It means that we want to help <b>you</b> figure...
</div>
</body>
У меня есть следующий XPath
/body/div
Я получаю следующее
At first glance you may ask, “what do you mean?” It means that we want to help figure...
Я хочу
At first glance you may ask, “what <i>exactly</i> do you mean?” It means that we want to help <b>you</b> figure...
Если вы заметили, что в примере HTML есть HTML-теги <i/>
и <b />
в содержимом. Слова внутри этих тегов «теряются», когда я извлекаю содержимое.
Я использую SimpleXML в PHP, если это имеет значение.