Является ли использование HtmlCleaner и Jsoup вместе хорошей идеей?

Итак, я пытаюсь получить некоторые данные с определенного веб-сайта. При первом запуске приложение загружает html-файл определенного веб-сайта и очищает его.

private class cleanHtml extends AsyncTask<Void, Void, Void>{

    @Override
    protected Void doInBackground(Void... arg0) {
        try {
            HtmlCleaner cleaner = new HtmlCleaner();
            String url = "https://www.easistent.com/urniki/263/razredi/16515";
            TagNode node = cleaner.clean(new URL(url));
            CleanerProperties props = cleaner.getProperties();
            String fileName = Environment.getExternalStorageDirectory().getPath() + "/Android/data/com.whizzapps.stpsurniki/cleaned.html";
            new PrettyXmlSerializer(props).writeToFile(node, fileName, "utf-8");
            Log.i("TAG", "AsyncTask done!");
        } catch (MalformedURLException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
        return null;
    }
}

Теперь я знаю, что могу разобрать html с помощью HtmlCleaner с помощью XPath, но у меня совсем нет знаний в XPath. Я почти уверен, что было бы легче разобрать его с помощью Jsoup после очистки файла. Это нормально?


person Guy    schedule 27.09.2013    source источник


Ответы (1)


Это не должно быть проблемой, все, что вам нужно, это правильный HTML. вы можете использовать это:

 String html = getHtml();
 Document doc = Jsoup.parse(html);
 Elements elms = doc.select("cssSelector");
 Elements elms1 = doc.getElementsByClass("class");
person Foo Bar User    schedule 28.09.2013