Использование Jsoup, что было бы оптимальным подходом для извлечения текста, шаблон которого известен ([number]%%[number]
), но находится на HTML-странице, которая не использует ни CSS, ни div, span, классы или другую идентификацию любого типа (ага, старая HTML-страница над которыми я не властен)?
Единственное, что постоянно идентифицирует этот текстовый сегмент (и гарантированно останется таковым), это то, что HTML всегда выглядит так (внутри большей части HTML):
<hr>
2%%17
<hr>
(Числа 2 и 17 приведены только в качестве примеров. Это могут быть любые числа, и на самом деле это две переменные, которые мне нужно надежно извлечь из этой HTML-страницы).
Если бы этот текст находился в охватывающих и однозначно идентифицирующих <span>
или <div>
, у меня не было бы проблем с извлечением его с помощью Jsoup. Проблема в том, что это не тот случай, и единственный способ, который я могу придумать прямо сейчас (который вообще не элегантен), состоит в том, чтобы обрабатывать необработанный HTML с помощью регулярное выражение
Однако обработка необработанного HTML с помощью регулярного выражения кажется неэффективной, потому что я уже проанализировал его с помощью Jsoup в DOM.
Предложения?
element.text()
для получения столь желанного[number]%%[number]
. :) - person ef2011   schedule 03.09.2011[number]%%[number]
не является элементом. Итак, на данный момент мой обходной путь состоит в том, чтобы взятьbody.html()
и передать его через регулярное выражение, которое идентифицирует описанный выше шаблон. Но я открыт для более элегантных решений. - person ef2011   schedule 03.09.2011<hr>
, но только один с шаблоном, который я цитировал в своем посте. - person ef2011   schedule 03.09.2011<hr>
s нет других элементов? Даже без<p>
? Просто<hr>blahblah 2%%17 blahblah</hr>
? - person BalusC   schedule 03.09.2011