Как получить HTML-страницу с помощью HtmlUnit

Я знаю, вы можете подумать, что этот вопрос глупый, но мне нужно использовать HtmlUnit. Однако он возвращает страницу либо в виде XML, либо в виде текста.

Я не знаю, как получить чистый HTML (такой же, как исходный код, который возвращают браузеры)

Мне это нужно, потому что мне нужно использовать некоторые написанные модули. Есть идеи?


person Afshin Moazami    schedule 19.02.2012    source источник
comment
г-н. Вай спрашивает, можете ли вы предоставить полный код, который извлекает веб-страницу с помощью HTMLUNIT.   -  person John Dvorak    schedule 17.02.2013
comment
У меня проблема с сохранением, можете мне помочь? stackoverflow.com/questions/20781322/   -  person ducngm.hn    schedule 26.12.2013


Ответы (1)


Вы можете использовать следующий фрагмент кода для достижения своей цели:

WebClient webClient = new WebClient();
Page page = webClient.getPage("http://example.com");
WebResponse response = page.getWebResponse();
String content = response.getContentAsString();

См. javadocs для WebResponse.html#getContentAsString() метод.

person Dmytro Chyzhykov    schedule 19.02.2012
comment
Спасибо! :) Я нашел его как раз перед тем, как увидел ваш комментарий! - person Afshin Moazami; 20.02.2012
comment
но есть проблема, он не показывает тексты в тегах ‹nonscript›! - person Afshin Moazami; 20.02.2012
comment
webClient.getOptions().setJavaScriptEnabled(true) — добавить это - person Panchal Deep; 09.04.2017